Details
Title | Исследование и разработка алгоритмов токенизации русскоязычных текстов для повышения качества работы ембеддеров: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение» |
---|---|
Creators | Смагина Александра Валерьевна |
Scientific adviser | Лукашин Алексей Андреевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | токенизация ; ембеддер ; bpe ; wordpiece ; sentencepiece ; лемматизация ; аффиксы ; nlp ; llm ; tokenization ; embedder ; lemmatization ; affixes |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 02.04.01 |
Speciality group (FGOS) | 020000 - Компьютерные и информационные науки |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-3796 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Additionally | New arrival |
Record key | ru\spstu\vkr\37441 |
Record create date | 9/19/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
В данной работе представлено исследование методов токенизации русскоязычного корпуса текстов. Рассмотрены классические подходы к токенизации, такие как WordPiece и SentencePiece, а также современные алгоритмы, включая BPE, PickyBPE и BoundlessBPE. На основе анализа особенностей морфологической структуры языка выполнена оптимизация алгоритма BPE, ориентированная на повышение эффективности обработки русскоязычных текстов. Осуществлен сравнительный анализ модификации BPE с методами WordPiece, SentencePiece и стандартным BPE. Для оценки качества токенизации использовались метрики Renyi efficiency и Token Completness, что позволило объективно охарактеризовать эффективность предложенной модификации. На основе разработанного токенизатора проведено обучение векторной модели представления текста, после чего выполнено сравнение полученных результатов на всей текстовой выборке и на выборках, состоящих из предложений с редкими словами и предложений со сложными конструкциями, помощью метрики F1-score. Полученные данные демонстрируют преимущество предложенного метода токенизации в задачах обработки естественного языка для русскоязычных корпусов.
This work presents a study of tokenization methods applied to a Russian-language text corpus. Classical approaches such as WordPiece and SentencePiece are examined alongside modern algorithms including BPE, PickyBPE, and BoundlessBPE. Based on an analysis of the morphological structure of the Russian language, the BPE algorithm was optimized with the aim of improving its efficiency in processing Russian-language texts. A comparative analysis was conducted between the modified BPE method and the standard tokenization techniques - WordPiece, SentencePiece, and classical BPE. To evaluate the quality of tokenization, the metrics Rényi efficiency and Token Completeness were employed, allowing for an objective assessment of the proposed modification’s performance. Using the developed tokenizer, a vector-based text representation model was trained. Subsequently, the results were evaluated across the entire test set, as well as on subsets consisting of sentences containing rare words and sentences with complex syntactic structures. The evaluation was performed using the F1-score. The obtained results demonstrate the superiority of the proposed tokenization method in natural language processing tasks involving Russian-language corpora. This advantage is attributed to the algorithms ability to account for affixes and preserve morphological integrity, which significantly enhances both semantic coherence and computational efficiency.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 4
Last 30 days: 4