Details

Title Исследование и разработка алгоритмов токенизации русскоязычных текстов для повышения качества работы ембеддеров: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»
Creators Смагина Александра Валерьевна
Scientific adviser Лукашин Алексей Андреевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects токенизация ; ембеддер ; bpe ; wordpiece ; sentencepiece ; лемматизация ; аффиксы ; nlp ; llm ; tokenization ; embedder ; lemmatization ; affixes
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 02.04.01
Speciality group (FGOS) 020000 - Компьютерные и информационные науки
DOI 10.18720/SPBPU/3/2025/vr/vr25-3796
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key ru\spstu\vkr\37441
Record create date 9/19/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

В данной работе представлено исследование методов токенизации русскоязычного корпуса текстов. Рассмотрены классические подходы к токенизации, такие как WordPiece и SentencePiece, а также современные алгоритмы, включая BPE, PickyBPE и BoundlessBPE. На основе анализа особенностей морфологической структуры языка выполнена оптимизация алгоритма BPE, ориентированная на повышение эффективности обработки русскоязычных текстов. Осуществлен сравнительный анализ модификации BPE с методами WordPiece, SentencePiece и стандартным BPE. Для оценки качества токенизации использовались метрики Renyi efficiency и Token Completness, что позволило объективно охарактеризовать эффективность предложенной модификации. На основе разработанного токенизатора проведено обучение векторной модели представления текста, после чего выполнено сравнение полученных результатов на всей текстовой выборке и на выборках, состоящих из предложений с редкими словами и предложений со сложными конструкциями, помощью метрики F1-score. Полученные данные демонстрируют преимущество предложенного метода токенизации в задачах обработки естественного языка для русскоязычных корпусов.

This work presents a study of tokenization methods applied to a Russian-language text corpus. Classical approaches such as WordPiece and SentencePiece are examined alongside modern algorithms including BPE, PickyBPE, and BoundlessBPE. Based on an analysis of the morphological structure of the Russian language, the BPE algorithm was optimized with the aim of improving its efficiency in processing Russian-language texts. A comparative analysis was conducted between the modified BPE method and the standard tokenization techniques - WordPiece, SentencePiece, and classical BPE. To evaluate the quality of tokenization, the metrics Rényi efficiency and Token Completeness were employed, allowing for an objective assessment of the proposed modification’s performance. Using the developed tokenizer, a vector-based text representation model was trained. Subsequently, the results were evaluated across the entire test set, as well as on subsets consisting of sentences containing rare words and sentences with complex syntactic structures. The evaluation was performed using the F1-score. The obtained results demonstrate the superiority of the proposed tokenization method in natural language processing tasks involving Russian-language corpora. This advantage is attributed to the algorithms ability to account for affixes and preserve morphological integrity, which significantly enhances both semantic coherence and computational efficiency.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 4 
Last 30 days: 4

Detailed usage statistics