Details

Title Fine-Tuning a Language Model for Translating Texts in the Field of Civil Aviation (on the Material of Russian-Icelandic Pair): выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)»
Creators Овсянникова Полина Станиславовна
Scientific adviser Коган Марина Самуиловна
Other creators Коваленко В. С.
Organization Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects machine translation ; low-resource languages ; neural machine translation ; civil aviation ; language model fine-tuning ; pivot-based translation ; data augmentation ; машинный перевод ; малоресурсные языки ; нейронный машинный перевод ; гражданская авиация ; тонкая настройка языковой модели ; перевод на основе сводных данных ; метод аугментации
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 45.04.04
Speciality group (FGOS) 450000 - Языкознание и литературоведение
DOI 10.18720/SPBPU/3/2025/vr/vr25-3920
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\37599
Record create date 9/19/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

It explores the application of fine-tuned language models to the task of translating specialized texts in civil aviation from Russian to Icelandic. This research aims to address the challenges of translating domain-specific terminology accurately and efficiently, focusing on improving translation quality through advanced machine learning techniques. The methodology employed involves compiling a parallel corpus of EnglishIcelandic texts specific to civil aviation and fine-tuning a language model on this dataset. Data augmentation techniques, including back-translation and leveraging existing databases such as the Aviation Safety Reporting System, were utilized to enhance the corpus and improve model performance. The theoretical framework examines the nature of technical texts in civil aviation, the specifics of machine translation in low-resource language contexts, and the current state-of-the-art in language model fine-tuning. Experimental results indicate that fine-tuned language models can improve the accuracy of translations in specialized fields. The model demonstrated enhanced capability in recognizing and translating domain-specific terminology correctly after fine-tuning. However, some pre-processing of texts and continuous augmentation of the training corpus with domain-specific data are essential for optimal performance. This study concludes that fine-tuning language models on specialized corpora is a viable approach to improving translation quality in low-resource language pairs. The findings suggest that with appropriate pre-editing and corpus augmentation, machine translation can be effectively applied to the translation of civil aviation texts, offering valuable insights for similar applications in other specialized domains. To achieve these results, information technologies were used in the work: the Marian framework, Google Colab, the ASRS Database, and others.

Данная работа посвящена применению дообученных языковых моделей к задаче перевода специализированных текстов в области гражданской авиации с русского на исландский. Это исследование направлено на решение проблем точного и эффективного перевода терминологии, относящейся к конкретной предметной области, с акцентом на повышение качества перевода с помощью передовых методов машинного обучения. Используемая методология предполагает составление параллельного корпуса англо-исландских текстов, относящихся к гражданской авиации, и точную настройку языковой модели на основе этого набора данных. Для расширения корпуса и повышения производительности модели были использованы методы увеличения объема данных, включая обратный перевод и использование существующих баз данных, таких как система отчетности по безопасности полетов (ASRS Database). Теоретическая основа рассматривает природу технических текстов в гражданской авиации, специфику машинного перевода в условиях ограниченных языковых ресурсов и современное состояние в области тонкой настройки языковых моделей. Результаты экспериментов показывают, что точно настроенные языковые модели могут повысить точность перевода в специализированных областях. Однако для оптимальной работы необходима предварительная обработка текстов и постоянное пополнение тренировочного корпуса данными, относящимися к конкретной предметной области. В этом исследовании делается вывод о том, что тонкая настройка языковых моделей на специализированных корпусах является жизнеспособным подходом к повышению качества перевода в языковых парах с ограниченными ресурсами. Полученные результаты свидетельствуют о том, что при надлежащем предварительном редактировании и расширении корпуса машинный перевод может быть эффективно применен для перевода текстов гражданской авиации, предоставляя ценную информацию для аналогичных приложений в других специализированных областях. Для достижения данных результатов в работе были использованы информационные технологии: фреймворк Marian framework, Google Colab, база данных ASRS Database и прочие.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous

Access count: 1 
Last 30 days: 1

Detailed usage statistics