Details
| Title | Fine-Tuning a Language Model for Translating Texts in the Field of Civil Aviation (on the Material of Russian-Icelandic Pair): выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)» |
|---|---|
| Creators | Овсянникова Полина Станиславовна |
| Scientific adviser | Коган Марина Самуиловна |
| Other creators | Коваленко В. С. |
| Organization | Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт |
| Imprint | Санкт-Петербург, 2025 |
| Collection | Выпускные квалификационные работы ; Общая коллекция |
| Subjects | machine translation ; low-resource languages ; neural machine translation ; civil aviation ; language model fine-tuning ; pivot-based translation ; data augmentation ; машинный перевод ; малоресурсные языки ; нейронный машинный перевод ; гражданская авиация ; тонкая настройка языковой модели ; перевод на основе сводных данных ; метод аугментации |
| Document type | Master graduation qualification work |
| File type | |
| Language | Russian |
| Level of education | Master |
| Speciality code (FGOS) | 45.04.04 |
| Speciality group (FGOS) | 450000 - Языкознание и литературоведение |
| DOI | 10.18720/SPBPU/3/2025/vr/vr25-3920 |
| Rights | Доступ по паролю из сети Интернет (чтение) |
| Additionally | New arrival |
| Record key | ru\spstu\vkr\37599 |
| Record create date | 9/19/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
| Group | Anonymous |
|---|---|
| Network | Internet |
It explores the application of fine-tuned language models to the task of translating specialized texts in civil aviation from Russian to Icelandic. This research aims to address the challenges of translating domain-specific terminology accurately and efficiently, focusing on improving translation quality through advanced machine learning techniques. The methodology employed involves compiling a parallel corpus of EnglishIcelandic texts specific to civil aviation and fine-tuning a language model on this dataset. Data augmentation techniques, including back-translation and leveraging existing databases such as the Aviation Safety Reporting System, were utilized to enhance the corpus and improve model performance. The theoretical framework examines the nature of technical texts in civil aviation, the specifics of machine translation in low-resource language contexts, and the current state-of-the-art in language model fine-tuning. Experimental results indicate that fine-tuned language models can improve the accuracy of translations in specialized fields. The model demonstrated enhanced capability in recognizing and translating domain-specific terminology correctly after fine-tuning. However, some pre-processing of texts and continuous augmentation of the training corpus with domain-specific data are essential for optimal performance. This study concludes that fine-tuning language models on specialized corpora is a viable approach to improving translation quality in low-resource language pairs. The findings suggest that with appropriate pre-editing and corpus augmentation, machine translation can be effectively applied to the translation of civil aviation texts, offering valuable insights for similar applications in other specialized domains. To achieve these results, information technologies were used in the work: the Marian framework, Google Colab, the ASRS Database, and others.
Данная работа посвящена применению дообученных языковых моделей к задаче перевода специализированных текстов в области гражданской авиации с русского на исландский. Это исследование направлено на решение проблем точного и эффективного перевода терминологии, относящейся к конкретной предметной области, с акцентом на повышение качества перевода с помощью передовых методов машинного обучения. Используемая методология предполагает составление параллельного корпуса англо-исландских текстов, относящихся к гражданской авиации, и точную настройку языковой модели на основе этого набора данных. Для расширения корпуса и повышения производительности модели были использованы методы увеличения объема данных, включая обратный перевод и использование существующих баз данных, таких как система отчетности по безопасности полетов (ASRS Database). Теоретическая основа рассматривает природу технических текстов в гражданской авиации, специфику машинного перевода в условиях ограниченных языковых ресурсов и современное состояние в области тонкой настройки языковых моделей. Результаты экспериментов показывают, что точно настроенные языковые модели могут повысить точность перевода в специализированных областях. Однако для оптимальной работы необходима предварительная обработка текстов и постоянное пополнение тренировочного корпуса данными, относящимися к конкретной предметной области. В этом исследовании делается вывод о том, что тонкая настройка языковых моделей на специализированных корпусах является жизнеспособным подходом к повышению качества перевода в языковых парах с ограниченными ресурсами. Полученные результаты свидетельствуют о том, что при надлежащем предварительном редактировании и расширении корпуса машинный перевод может быть эффективно применен для перевода текстов гражданской авиации, предоставляя ценную информацию для аналогичных приложений в других специализированных областях. Для достижения данных результатов в работе были использованы информационные технологии: фреймворк Marian framework, Google Colab, база данных ASRS Database и прочие.
| Network | User group | Action |
|---|---|---|
| ILC SPbPU Local Network | All |
|
| Internet | Authorized users SPbPU |
|
| Internet | Anonymous |
|
Access count: 1
Last 30 days: 1