Details

Title: Построение полнотекстового поиска по реестрам ограниченной области определения: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_02 «Математические методы анализа и визуализации данных»
Creators: Суриков Илья Юрьевич
Scientific adviser: Беляев Сергей Юрьевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Imprint: Санкт-Петербург, 2023
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: Базы данных; Математический анализ; полнотекстовый поиск; сбор и обработка данных; full text search; data collection and processing
UDC: 004.6; 517
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Level of education: Master
Speciality code (FGOS): 01.04.02
Speciality group (FGOS): 010000 - Математика и механика
DOI: 10.18720/SPBPU/3/2023/vr/vr23-5816
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\24351

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Данная работа посвящена исследованию подходов к построению полнотекстового поиска по ограниченному набору данных. Целью данной работы является разработка системы полнотекстового поиска по реестрам данных российских компаний, агрегированных из различных источников. А так же разработка ETL конвейера для сбора и периодического обновления этих данных. Система предоставляет функции для достижения следующих целей: сокращение времени и расходов на изучение рынка и поиск компаний с собственными технологическими решениями для повышения выручки или сокращения издержек за счет новых технологий. Был проведен анализ и сравнение нескольких подходов к реализации системы поиска по реестрам данных с учетом технического задания. Проведен детальный анализ возможностей Elasticsearch и PostgreSQL для реализации поставленных требований. В результате была разработана поисковая система на основе поискового движка Elasticsearch. В данной работе описана архитектура разработанной системы, сравнение различных поисковых движков и анализ полученных результатов: время работы поиска, точность выдачи результатов на основе разработанной методики проверки. По результатам проведенной работы была установлена схожесть метрик точности и скорости поисковых движков Elasticsearch и PostgreSQL при поиске с базовой функциональностью. Для поиска по большим объемам данных с сложными параметрами ранжирования более эффективным оказался Elasticsearch.

This work is devoted to the study of approaches to the construction of a full-text search on a limited set of data. The purpose of this work is to develop a full-text search system for data registries of Russian companies aggregated from various sources. As well as the development of an ETL pipeline for collecting and periodically updating this data. The system provides functions to achieve the following goals: reduce the time and cost of studying the market and finding companies with their own technological solutions to increase revenue or reduce costs through new technologies. An analysis and comparison of several approaches to the implementation of a search system in data registries was carried out, taking into account the terms of reference. A detailed analysis of the capabilities of Elasticsearch and PostgreSQL was carried out to implement the requirements. As a result, a search engine was developed based on the Elasticsearch search engine. This paper describes the architecture of the developed system, a comparison of various search engines and an analysis of the results obtained: the search time, the accuracy of the results. Based on the results of the work carried out, the similarity of the precision and speed metrics of Elasticsearch and PostgreSQL when searching with basic functionality was established. For searching large amounts of data with exceptional ranking parameters, Elasticsearch is more efficient.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 3
Last 30 days: 0
Detailed usage statistics