Детальная информация

Название: Построение полнотекстового поиска по реестрам ограниченной области определения: выпускная квалификационная работа магистра: направление 01.04.02 «Прикладная математика и информатика» ; образовательная программа 01.04.02_02 «Математические методы анализа и визуализации данных»
Авторы: Суриков Илья Юрьевич
Научный руководитель: Беляев Сергей Юрьевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Выходные сведения: Санкт-Петербург, 2023
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: Базы данных; Математический анализ; полнотекстовый поиск; сбор и обработка данных; full text search; data collection and processing
УДК: 004.6; 517
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 01.04.02
Группа специальностей ФГОС: 010000 - Математика и механика
DOI: 10.18720/SPBPU/3/2023/vr/vr23-5816
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\24351

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Данная работа посвящена исследованию подходов к построению полнотекстового поиска по ограниченному набору данных. Целью данной работы является разработка системы полнотекстового поиска по реестрам данных российских компаний, агрегированных из различных источников. А так же разработка ETL конвейера для сбора и периодического обновления этих данных. Система предоставляет функции для достижения следующих целей: сокращение времени и расходов на изучение рынка и поиск компаний с собственными технологическими решениями для повышения выручки или сокращения издержек за счет новых технологий. Был проведен анализ и сравнение нескольких подходов к реализации системы поиска по реестрам данных с учетом технического задания. Проведен детальный анализ возможностей Elasticsearch и PostgreSQL для реализации поставленных требований. В результате была разработана поисковая система на основе поискового движка Elasticsearch. В данной работе описана архитектура разработанной системы, сравнение различных поисковых движков и анализ полученных результатов: время работы поиска, точность выдачи результатов на основе разработанной методики проверки. По результатам проведенной работы была установлена схожесть метрик точности и скорости поисковых движков Elasticsearch и PostgreSQL при поиске с базовой функциональностью. Для поиска по большим объемам данных с сложными параметрами ранжирования более эффективным оказался Elasticsearch.

This work is devoted to the study of approaches to the construction of a full-text search on a limited set of data. The purpose of this work is to develop a full-text search system for data registries of Russian companies aggregated from various sources. As well as the development of an ETL pipeline for collecting and periodically updating this data. The system provides functions to achieve the following goals: reduce the time and cost of studying the market and finding companies with their own technological solutions to increase revenue or reduce costs through new technologies. An analysis and comparison of several approaches to the implementation of a search system in data registries was carried out, taking into account the terms of reference. A detailed analysis of the capabilities of Elasticsearch and PostgreSQL was carried out to implement the requirements. As a result, a search engine was developed based on the Elasticsearch search engine. This paper describes the architecture of the developed system, a comparison of various search engines and an analysis of the results obtained: the search time, the accuracy of the results. Based on the results of the work carried out, the similarity of the precision and speed metrics of Elasticsearch and PostgreSQL when searching with basic functionality was established. For searching large amounts of data with exceptional ranking parameters, Elasticsearch is more efficient.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 3
За последние 30 дней: 0
Подробная статистика