Details
Title | Реализация операций исчисления семантического подобия текстов в рамках ССУБД Катарсис: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта» |
---|---|
Creators | Боков Ярослав Александрович |
Scientific adviser | Яковлев Андрей Николаевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | суперкомпьютер ; системы управления базами данных ; распределенные системы ; тексты ; векторные представления ; с++ ; mpi ; cuda ; supercomputer ; database management systems ; distributed systems ; texts ; vector representations |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 09.03.04 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-4525 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Additionally | New arrival |
Record key | ru\spstu\vkr\38100 |
Record create date | 9/23/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Данная работа посвящена реализации операций генерации векторных представлений текстов и их сравнения в суперкомпьютерной системе управления базами данных «Катарсис». Обосновывается актуальность темы работы, проведен анализ СУБД и способ исчисления семантического подобия текстов. Далее обозревается сама ССУБД «Катарсис» и особенности ее архитектуры. Осуществляется проектирование необходимых нововведений в программное ядро СУБД. Приводятся теоретические расчеты эффективности нового функционала. В ходе работы в ядро «Катарсис» на языке C++ и с помощью библиотеки OpenMPI, реализующей стандарт MPI, добавлен новый тип данных для векторных представлений текстов, реализованы функция для их генерации и сравнения. Разработан векторный индекс для ускорения доступа к полям данного типа. Реализован алгоритм соединения таблиц по мере подобия текстов с использованием операции материализации. Для всех нововведений, кроме алгоритма соединения, были добавлены соответствующие ключевые слова в диалект языка SQL ССУБД. Выбор данных технологий в работе также обоснован. Новый функционал протестирован на предмет практической эффективности. Новый алгоритм соединения сравнивается с алгоритмом соединения таблиц вложенными циклами на предмет скорости выполнения операции на двух соединяемых таблицах размером более 100000 записей. Также производится сравнение эффективности алгоритма при разном числе задействованных вычислительных узлов с GPU в ССУБД «Катарсис».
This work focuses on implementing operations for generating vector representations of texts and comparing them in the supercomputer database management system “Catharsis”. The relevance of the topic is explained, an analysis of DBMS and methods for calculating semantic text similarity is conducted, and the Catharsis DBMS itself, along with its architectural features, is reviewed. A project for necessary enhancements to the DBMS core has been developed, and theoretical efficiency calculations for the new functionality have been performed. During the development process, the Catharsis’ core was extended using C++ and the OpenMPI library (implementing the MPI standard) to introduce support for a new data type designed for text vector representations. Functions for generating and comparing these vectors were also implemented. A vector index was developed to optimize access to fields of this data type. Additionally, a new table join algorithm was implemented using CUDA, which computes the similarity of text fields through a materialization operation. For all enhancements except the join algorithm, appropriate keywords were added to the SQL dialect of the DBMS. The reasons to choose these technologies are also discussed in this work. The new functionality was tested for practical efficiency. The new table joining algorithm was compared against a nested loop join algorithm in terms of execution speed on two joined tables containing over 100,000 records each. The efficiency of the algorithm was also evaluated with varying numbers of GPU-equipped computational nodes in the Catharsis DBMS.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 1
Last 30 days: 1