Исследование и разработка алгоритмов токенизации русскоязычных текстов для повышения качества работы ембеддеров: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»

Смагина, Александра Валерьевна

Details

Title	Исследование и разработка алгоритмов токенизации русскоязычных текстов для повышения качества работы ембеддеров: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»
Creators	Смагина Александра Валерьевна
Scientific adviser	Лукашин Алексей Андреевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	токенизация ; ембеддер ; bpe ; wordpiece ; sentencepiece ; лемматизация ; аффиксы ; nlp ; llm ; tokenization ; embedder ; lemmatization ; affixes
Document type	Master graduation qualification work
File type	PDF
Language	Russian
Level of education	Master
Speciality code (FGOS)	02.04.01
Speciality group (FGOS)	020000 - Компьютерные и информационные науки
DOI	10.18720/SPBPU/3/2025/vr/vr25-3796
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	ru\spstu\vkr\37441
Record create date	9/19/2025

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

В данной работе представлено исследование методов токенизации русскоязычного корпуса текстов. Рассмотрены классические подходы к токенизации, такие как WordPiece и SentencePiece, а также современные алгоритмы, включая BPE, PickyBPE и BoundlessBPE. На основе анализа особенностей морфологической структуры языка выполнена оптимизация алгоритма BPE, ориентированная на повышение эффективности обработки русскоязычных текстов. Осуществлен сравнительный анализ модификации BPE с методами WordPiece, SentencePiece и стандартным BPE. Для оценки качества токенизации использовались метрики Renyi efficiency и Token Completness, что позволило объективно охарактеризовать эффективность предложенной модификации. На основе разработанного токенизатора проведено обучение векторной модели представления текста, после чего выполнено сравнение полученных результатов на всей текстовой выборке и на выборках, состоящих из предложений с редкими словами и предложений со сложными конструкциями, помощью метрики F1-score. Полученные данные демонстрируют преимущество предложенного метода токенизации в задачах обработки естественного языка для русскоязычных корпусов.

This work presents a study of tokenization methods applied to a Russian-language text corpus. Classical approaches such as WordPiece and SentencePiece are examined alongside modern algorithms including BPE, PickyBPE, and BoundlessBPE. Based on an analysis of the morphological structure of the Russian language, the BPE algorithm was optimized with the aim of improving its efficiency in processing Russian-language texts. A comparative analysis was conducted between the modified BPE method and the standard tokenization techniques - WordPiece, SentencePiece, and classical BPE. To evaluate the quality of tokenization, the metrics Rényi efficiency and Token Completeness were employed, allowing for an objective assessment of the proposed modification’s performance. Using the developed tokenizer, a vector-based text representation model was trained. Subsequently, the results were evaluated across the entire test set, as well as on subsets consisting of sentences containing rare words and sentences with complex syntactic structures. The evaluation was performed using the F1-score. The obtained results demonstrate the superiority of the proposed tokenization method in natural language processing tasks involving Russian-language corpora. This advantage is attributed to the algorithms ability to account for affixes and preserve morphological integrity, which significantly enhances both semantic coherence and computational efficiency.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 4
Last 30 days: 4

Detailed usage statistics