Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Данная работа посвящена исследованию подходов к построению полнотекстового поиска по ограниченному набору данных. Целью данной работы является разработка системы полнотекстового поиска по реестрам данных российских компаний, агрегированных из различных источников. А так же разработка ETL конвейера для сбора и периодического обновления этих данных. Система предоставляет функции для достижения следующих целей: сокращение времени и расходов на изучение рынка и поиск компаний с собственными технологическими решениями для повышения выручки или сокращения издержек за счет новых технологий. Был проведен анализ и сравнение нескольких подходов к реализации системы поиска по реестрам данных с учетом технического задания. Проведен детальный анализ возможностей Elasticsearch и PostgreSQL для реализации поставленных требований. В результате была разработана поисковая система на основе поискового движка Elasticsearch. В данной работе описана архитектура разработанной системы, сравнение различных поисковых движков и анализ полученных результатов: время работы поиска, точность выдачи результатов на основе разработанной методики проверки. По результатам проведенной работы была установлена схожесть метрик точности и скорости поисковых движков Elasticsearch и PostgreSQL при поиске с базовой функциональностью. Для поиска по большим объемам данных с сложными параметрами ранжирования более эффективным оказался Elasticsearch.
This work is devoted to the study of approaches to the construction of a full-text search on a limited set of data. The purpose of this work is to develop a full-text search system for data registries of Russian companies aggregated from various sources. As well as the development of an ETL pipeline for collecting and periodically updating this data. The system provides functions to achieve the following goals: reduce the time and cost of studying the market and finding companies with their own technological solutions to increase revenue or reduce costs through new technologies. An analysis and comparison of several approaches to the implementation of a search system in data registries was carried out, taking into account the terms of reference. A detailed analysis of the capabilities of Elasticsearch and PostgreSQL was carried out to implement the requirements. As a result, a search engine was developed based on the Elasticsearch search engine. This paper describes the architecture of the developed system, a comparison of various search engines and an analysis of the results obtained: the search time, the accuracy of the results. Based on the results of the work carried out, the similarity of the precision and speed metrics of Elasticsearch and PostgreSQL when searching with basic functionality was established. For searching large amounts of data with exceptional ranking parameters, Elasticsearch is more efficient.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Usage statistics
Access count: 3
Last 30 days: 0 Detailed usage statistics |