Детальная информация
| Название | Fine-Tuning a Language Model for Translating Texts in the Field of Civil Aviation (on the Material of Russian-Icelandic Pair): выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)» |
|---|---|
| Авторы | Овсянникова Полина Станиславовна |
| Научный руководитель | Коган Марина Самуиловна |
| Другие авторы | Коваленко В. С. |
| Организация | Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт |
| Выходные сведения | Санкт-Петербург, 2025 |
| Коллекция | Выпускные квалификационные работы ; Общая коллекция |
| Тематика | machine translation ; low-resource languages ; neural machine translation ; civil aviation ; language model fine-tuning ; pivot-based translation ; data augmentation ; машинный перевод ; малоресурсные языки ; нейронный машинный перевод ; гражданская авиация ; тонкая настройка языковой модели ; перевод на основе сводных данных ; метод аугментации |
| Тип документа | Выпускная квалификационная работа магистра |
| Тип файла | |
| Язык | Русский |
| Уровень высшего образования | Магистратура |
| Код специальности ФГОС | 45.04.04 |
| Группа специальностей ФГОС | 450000 - Языкознание и литературоведение |
| DOI | 10.18720/SPBPU/3/2025/vr/vr25-3920 |
| Права доступа | Доступ по паролю из сети Интернет (чтение) |
| Дополнительно | Новинка |
| Ключ записи | ru\spstu\vkr\37599 |
| Дата создания записи | 19.09.2025 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
| Группа | Анонимные пользователи |
|---|---|
| Сеть | Интернет |
It explores the application of fine-tuned language models to the task of translating specialized texts in civil aviation from Russian to Icelandic. This research aims to address the challenges of translating domain-specific terminology accurately and efficiently, focusing on improving translation quality through advanced machine learning techniques. The methodology employed involves compiling a parallel corpus of EnglishIcelandic texts specific to civil aviation and fine-tuning a language model on this dataset. Data augmentation techniques, including back-translation and leveraging existing databases such as the Aviation Safety Reporting System, were utilized to enhance the corpus and improve model performance. The theoretical framework examines the nature of technical texts in civil aviation, the specifics of machine translation in low-resource language contexts, and the current state-of-the-art in language model fine-tuning. Experimental results indicate that fine-tuned language models can improve the accuracy of translations in specialized fields. The model demonstrated enhanced capability in recognizing and translating domain-specific terminology correctly after fine-tuning. However, some pre-processing of texts and continuous augmentation of the training corpus with domain-specific data are essential for optimal performance. This study concludes that fine-tuning language models on specialized corpora is a viable approach to improving translation quality in low-resource language pairs. The findings suggest that with appropriate pre-editing and corpus augmentation, machine translation can be effectively applied to the translation of civil aviation texts, offering valuable insights for similar applications in other specialized domains. To achieve these results, information technologies were used in the work: the Marian framework, Google Colab, the ASRS Database, and others.
Данная работа посвящена применению дообученных языковых моделей к задаче перевода специализированных текстов в области гражданской авиации с русского на исландский. Это исследование направлено на решение проблем точного и эффективного перевода терминологии, относящейся к конкретной предметной области, с акцентом на повышение качества перевода с помощью передовых методов машинного обучения. Используемая методология предполагает составление параллельного корпуса англо-исландских текстов, относящихся к гражданской авиации, и точную настройку языковой модели на основе этого набора данных. Для расширения корпуса и повышения производительности модели были использованы методы увеличения объема данных, включая обратный перевод и использование существующих баз данных, таких как система отчетности по безопасности полетов (ASRS Database). Теоретическая основа рассматривает природу технических текстов в гражданской авиации, специфику машинного перевода в условиях ограниченных языковых ресурсов и современное состояние в области тонкой настройки языковых моделей. Результаты экспериментов показывают, что точно настроенные языковые модели могут повысить точность перевода в специализированных областях. Однако для оптимальной работы необходима предварительная обработка текстов и постоянное пополнение тренировочного корпуса данными, относящимися к конкретной предметной области. В этом исследовании делается вывод о том, что тонкая настройка языковых моделей на специализированных корпусах является жизнеспособным подходом к повышению качества перевода в языковых парах с ограниченными ресурсами. Полученные результаты свидетельствуют о том, что при надлежащем предварительном редактировании и расширении корпуса машинный перевод может быть эффективно применен для перевода текстов гражданской авиации, предоставляя ценную информацию для аналогичных приложений в других специализированных областях. Для достижения данных результатов в работе были использованы информационные технологии: фреймворк Marian framework, Google Colab, база данных ASRS Database и прочие.
| Место доступа | Группа пользователей | Действие |
|---|---|---|
| Локальная сеть ИБК СПбПУ | Все |
|
| Интернет | Авторизованные пользователи СПбПУ |
|
| Интернет | Анонимные пользователи |
|
Количество обращений: 1
За последние 30 дней: 1