Details
Title | Optimization of Subtitle Corpus Size for Training a Language Model in the Task of Translating Fantasy Films: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)» |
---|---|
Creators | Иккес Александр Сергеевич |
Scientific adviser | Герасимова Анастасия Сергеевна |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | machine translation ; subtitling ; fine-tuning ; corpus optimization ; fantasy genre ; neural networks ; translation quality ; машинный перевод ; субтитры ; тонкая настройка ; оптимизация корпуса ; жанр фэнтези ; нейросети ; качество перевода |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 45.04.04 |
Speciality group (FGOS) | 450000 - Языкознание и литературоведение |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-4327 |
Rights | Доступ по паролю из сети Интернет (чтение) |
Additionally | New arrival |
Record key | ru\spstu\vkr\38953 |
Record create date | 9/24/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
The study brings together approaches from neural machine translation, corpus linguistics, and audiovisual translation. It examines the stylistic and lexical challenges typical of fantasy content, such as archaisms, invented terms, and poetic structures, and investigates whether these can be adequately handled by models trained on general-purpose subtitle data. The theoretical framework combines perspectives from neural network-based translation, subtitling theory, and corpus-based evaluation. These domains collectively inform the research design, particularly in handling genre-specific vocabulary, subtitling constraints, and translation quality assessment. The methodology includes assembling a parallel corpus of subtitles, training translation models using datasets of varying sizes, and evaluating the output using both automatic metrics and human judgment. The research also considers practical constraints specific to subtitling, including length restrictions and viewer readability. Results demonstrate that increasing the training corpus size improves translation quality up to a certain point, after which it gains a plateau. The findings suggest that, with optimal corpus volume and fine-tuning strategies, acceptable translation quality for genre-specific content can be achieved without domain-specific training data.
Выпускная квалификационная работа посвящена изучению того, как объем субтитров общего назначения влияет на производительность систем машинного перевода при применении к стилистически сложному жанровому материалу, такому как фэнтези-фильмы. Исследование объединяет подходы из нейронного машинного перевода, корпусной лингвистики и аудиовизуального перевода. В нём рассматриваются стилистические и лексические трудности, характерные для фэнтези-контента, включая архаизмы, вымышленные термины и поэтические структуры, а также анализируется, насколько эффективно такие особенности обрабатываются моделями, обученными на субтитрах общего назначения. Теоретическая база включает взгляды из области перевода на основе нейросетей, теории субтитрирования и корпусной оценки качества. Эти направления совместно формируют исследовательский дизайн, особенно в контексте работы с жанровой лексикой, ограничениями субтитров и оценкой качества перевода. Методология включает сбор параллельного корпуса субтитров, обучение моделей перевода на наборах данных разного объёма и оценку результатов с использованием как автоматических метрик, так и экспертного анализа. В работе также учитываются практические ограничения, присущие субтитрированию, включая ограничение длины текста и удобочитаемость для зрителя. Результаты показывают, что увеличение объема обучающего корпуса улучшает качество перевода до определённого момента, после чего эффект стабилизируется. Полученные данные свидетельствуют о том, что при оптимальном объеме корпуса и применении стратегий тонкой настройки можно достичь приемлемого качества перевода жанрового контента без необходимости в специализированных доменных данных.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- INTRODUCTION
- CHAPTER 1. THEORETICAL FOUNDATIONS OF SUBTITLING AND MACHINE TRANSLATION
- 1.1. Subtitle translation: linguistic, cultural, and technical demands
- 1.1.1. The role of subtitles in multilingual communication
- 1.1.2. Challenges in subtitle translation
- 1.2. Machine translation in audiovisual contexts
- 1.2.1. A brief history of machine translation
- 1.2.2. Theoretical models guiding subtitle machine translation optimization
- 1.2.3. Neural machine translation for subtitling
- 1.2.4. Evaluation metrics for translation quality
- Chapter 1 Conclusions
- CHAPTER 2. FINE-TUNING MACHINE TRANSLATION MODELS: METHODS, TOOLS, AND APPLICATIONS
- 2.1. Fine-tuning in language model training: a conceptual and historical overview
- 2.1.1. Marian NMT: a high-performance toolkit for NMT
- 2.1.2. OPUS-MT: A multilingual NMT system based on open source resources
- 2.1.3. OpenSubtitles: an English–Russian parallel corpus for MT research
- 2.2. Corpus optimization for neural language model training
- 2.2.1. The motivation behind corpus optimization
- 2.2.2. Techniques for optimizing a corpus
- 2.2.3. Measuring corpus efficiency
- Chapter 2 Conclusions
- CHAPTER 3. EXPERIMENTAL SETUP AND DATA PREPARATION
- 3.1. Training data and preprocessing.
- 3.2. Experimental procedures. Fine-tuning the model
- 3.3. Assessing fine-tuned models on fantasy subtitles
- Chapter 3 Conclusions
- CONCLUSION
- REFERENCES
- APPENDIX 1. Fine-tuning starting file
Access count: 1
Last 30 days: 1