Details

Title Реализация операций исчисления семантического подобия текстов в рамках ССУБД Катарсис: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators Боков Ярослав Александрович
Scientific adviser Яковлев Андрей Николаевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects суперкомпьютер ; системы управления базами данных ; распределенные системы ; тексты ; векторные представления ; с++ ; mpi ; cuda ; supercomputer ; database management systems ; distributed systems ; texts ; vector representations
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 09.03.04
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2025/vr/vr25-4525
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key ru\spstu\vkr\38100
Record create date 9/23/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Данная работа посвящена реализации операций генерации векторных представлений текстов и их сравнения в суперкомпьютерной системе управления базами данных «Катарсис». Обосновывается актуальность темы работы, проведен анализ СУБД и способ исчисления семантического подобия текстов. Далее обозревается сама ССУБД «Катарсис» и особенности ее архитектуры. Осуществляется проектирование необходимых нововведений в программное ядро СУБД. Приводятся теоретические расчеты эффективности нового функционала. В ходе работы в ядро «Катарсис» на языке C++ и с помощью библиотеки OpenMPI, реализующей стандарт MPI, добавлен новый тип данных для векторных представлений текстов, реализованы функция для их генерации и сравнения. Разработан векторный индекс для ускорения доступа к полям данного типа. Реализован алгоритм соединения таблиц по мере подобия текстов с использованием операции материализации. Для всех нововведений, кроме алгоритма соединения, были добавлены соответствующие ключевые слова в диалект языка SQL ССУБД. Выбор данных технологий в работе также обоснован. Новый функционал протестирован на предмет практической эффективности. Новый алгоритм соединения сравнивается с алгоритмом соединения таблиц вложенными циклами на предмет скорости выполнения операции на двух соединяемых таблицах размером более 100000 записей. Также производится сравнение эффективности алгоритма при разном числе задействованных вычислительных узлов с GPU в ССУБД «Катарсис».

This work focuses on implementing operations for generating vector representations of texts and comparing them in the supercomputer database management system “Catharsis”. The relevance of the topic is explained, an analysis of DBMS and methods for calculating semantic text similarity is conducted, and the Catharsis DBMS itself, along with its architectural features, is reviewed. A project for necessary enhancements to the DBMS core has been developed, and theoretical efficiency calculations for the new functionality have been performed. During the development process, the Catharsis’ core was extended using C++ and the OpenMPI library (implementing the MPI standard) to introduce support for a new data type designed for text vector representations. Functions for generating and comparing these vectors were also implemented. A vector index was developed to optimize access to fields of this data type. Additionally, a new table join algorithm was implemented using CUDA, which computes the similarity of text fields through a materialization operation. For all enhancements except the join algorithm, appropriate keywords were added to the SQL dialect of the DBMS. The reasons to choose these technologies are also discussed in this work. The new functionality was tested for practical efficiency. The new table joining algorithm was compared against a nested loop join algorithm in terms of execution speed on two joined tables containing over 100,000 records each. The efficiency of the algorithm was also evaluated with varying numbers of GPU-equipped computational nodes in the Catharsis DBMS.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 1 
Last 30 days: 1

Detailed usage statistics