Реализация операций исчисления семантического подобия текстов в рамках ССУБД Катарсис: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»

Боков, Ярослав Александрович

Details

Title	Реализация операций исчисления семантического подобия текстов в рамках ССУБД Катарсис: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators	Боков Ярослав Александрович
Scientific adviser	Яковлев Андрей Николаевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	суперкомпьютер ; системы управления базами данных ; распределенные системы ; тексты ; векторные представления ; с++ ; mpi ; cuda ; supercomputer ; database management systems ; distributed systems ; texts ; vector representations
Document type	Bachelor graduation qualification work
File type	PDF
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	09.03.04
Speciality group (FGOS)	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2025/vr/vr25-4525
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	ru\spstu\vkr\38100
Record create date	9/23/2025

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Данная работа посвящена реализации операций генерации векторных представлений текстов и их сравнения в суперкомпьютерной системе управления базами данных «Катарсис». Обосновывается актуальность темы работы, проведен анализ СУБД и способ исчисления семантического подобия текстов. Далее обозревается сама ССУБД «Катарсис» и особенности ее архитектуры. Осуществляется проектирование необходимых нововведений в программное ядро СУБД. Приводятся теоретические расчеты эффективности нового функционала. В ходе работы в ядро «Катарсис» на языке C++ и с помощью библиотеки OpenMPI, реализующей стандарт MPI, добавлен новый тип данных для векторных представлений текстов, реализованы функция для их генерации и сравнения. Разработан векторный индекс для ускорения доступа к полям данного типа. Реализован алгоритм соединения таблиц по мере подобия текстов с использованием операции материализации. Для всех нововведений, кроме алгоритма соединения, были добавлены соответствующие ключевые слова в диалект языка SQL ССУБД. Выбор данных технологий в работе также обоснован. Новый функционал протестирован на предмет практической эффективности. Новый алгоритм соединения сравнивается с алгоритмом соединения таблиц вложенными циклами на предмет скорости выполнения операции на двух соединяемых таблицах размером более 100000 записей. Также производится сравнение эффективности алгоритма при разном числе задействованных вычислительных узлов с GPU в ССУБД «Катарсис».

This work focuses on implementing operations for generating vector representations of texts and comparing them in the supercomputer database management system “Catharsis”. The relevance of the topic is explained, an analysis of DBMS and methods for calculating semantic text similarity is conducted, and the Catharsis DBMS itself, along with its architectural features, is reviewed. A project for necessary enhancements to the DBMS core has been developed, and theoretical efficiency calculations for the new functionality have been performed. During the development process, the Catharsis’ core was extended using C++ and the OpenMPI library (implementing the MPI standard) to introduce support for a new data type designed for text vector representations. Functions for generating and comparing these vectors were also implemented. A vector index was developed to optimize access to fields of this data type. Additionally, a new table join algorithm was implemented using CUDA, which computes the similarity of text fields through a materialization operation. For all enhancements except the join algorithm, appropriate keywords were added to the SQL dialect of the DBMS. The reasons to choose these technologies are also discussed in this work. The new functionality was tested for practical efficiency. The new table joining algorithm was compared against a nested loop join algorithm in terms of execution speed on two joined tables containing over 100,000 records each. The efficiency of the algorithm was also evaluated with varying numbers of GPU-equipped computational nodes in the Catharsis DBMS.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 1
Last 30 days: 1

Detailed usage statistics