Детальная информация
Название | Реализация операций исчисления семантического подобия текстов в рамках ССУБД Катарсис: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта» |
---|---|
Авторы | Боков Ярослав Александрович |
Научный руководитель | Яковлев Андрей Николаевич |
Организация | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Выходные сведения | Санкт-Петербург, 2025 |
Коллекция | Выпускные квалификационные работы ; Общая коллекция |
Тематика | суперкомпьютер ; системы управления базами данных ; распределенные системы ; тексты ; векторные представления ; с++ ; mpi ; cuda ; supercomputer ; database management systems ; distributed systems ; texts ; vector representations |
Тип документа | Выпускная квалификационная работа бакалавра |
Тип файла | |
Язык | Русский |
Уровень высшего образования | Бакалавриат |
Код специальности ФГОС | 09.03.04 |
Группа специальностей ФГОС | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-4525 |
Права доступа | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Дополнительно | Новинка |
Ключ записи | ru\spstu\vkr\38100 |
Дата создания записи | 23.09.2025 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа | Анонимные пользователи |
---|---|
Сеть | Интернет |
Данная работа посвящена реализации операций генерации векторных представлений текстов и их сравнения в суперкомпьютерной системе управления базами данных «Катарсис». Обосновывается актуальность темы работы, проведен анализ СУБД и способ исчисления семантического подобия текстов. Далее обозревается сама ССУБД «Катарсис» и особенности ее архитектуры. Осуществляется проектирование необходимых нововведений в программное ядро СУБД. Приводятся теоретические расчеты эффективности нового функционала. В ходе работы в ядро «Катарсис» на языке C++ и с помощью библиотеки OpenMPI, реализующей стандарт MPI, добавлен новый тип данных для векторных представлений текстов, реализованы функция для их генерации и сравнения. Разработан векторный индекс для ускорения доступа к полям данного типа. Реализован алгоритм соединения таблиц по мере подобия текстов с использованием операции материализации. Для всех нововведений, кроме алгоритма соединения, были добавлены соответствующие ключевые слова в диалект языка SQL ССУБД. Выбор данных технологий в работе также обоснован. Новый функционал протестирован на предмет практической эффективности. Новый алгоритм соединения сравнивается с алгоритмом соединения таблиц вложенными циклами на предмет скорости выполнения операции на двух соединяемых таблицах размером более 100000 записей. Также производится сравнение эффективности алгоритма при разном числе задействованных вычислительных узлов с GPU в ССУБД «Катарсис».
This work focuses on implementing operations for generating vector representations of texts and comparing them in the supercomputer database management system “Catharsis”. The relevance of the topic is explained, an analysis of DBMS and methods for calculating semantic text similarity is conducted, and the Catharsis DBMS itself, along with its architectural features, is reviewed. A project for necessary enhancements to the DBMS core has been developed, and theoretical efficiency calculations for the new functionality have been performed. During the development process, the Catharsis’ core was extended using C++ and the OpenMPI library (implementing the MPI standard) to introduce support for a new data type designed for text vector representations. Functions for generating and comparing these vectors were also implemented. A vector index was developed to optimize access to fields of this data type. Additionally, a new table join algorithm was implemented using CUDA, which computes the similarity of text fields through a materialization operation. For all enhancements except the join algorithm, appropriate keywords were added to the SQL dialect of the DBMS. The reasons to choose these technologies are also discussed in this work. The new functionality was tested for practical efficiency. The new table joining algorithm was compared against a nested loop join algorithm in terms of execution speed on two joined tables containing over 100,000 records each. The efficiency of the algorithm was also evaluated with varying numbers of GPU-equipped computational nodes in the Catharsis DBMS.
Место доступа | Группа пользователей | Действие |
---|---|---|
Локальная сеть ИБК СПбПУ | Все |
|
Интернет | Авторизованные пользователи СПбПУ |
|
Интернет | Анонимные пользователи |
|
Количество обращений: 1
За последние 30 дней: 1