Automatic Term Extraction from Parallel Corpus in the Domain of Automatic Text Processing: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)» = Автоматическое извлечение терминологии из параллельного корпуса по автоматической обработке текста

Чистякова, Светлана Владимировна

Details

Title	Automatic Term Extraction from Parallel Corpus in the Domain of Automatic Text Processing: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)» = Автоматическое извлечение терминологии из параллельного корпуса по автоматической обработке текста
Creators	Чистякова Светлана Владимировна
Scientific adviser	Коган Марина Самуиловна
Organization	Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт
Imprint	Санкт-Петербург, 2024
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	automatic term extraction ; parallel corpus ; bilingual glossary ; automatic text processing ; computational linguistics ; natural language processing ; автоматическое извлечение терминов ; параллельный корпус ; двуязычный глоссарий ; автоматическая обработка текста ; компьютерная лингвистика ; обработка естественного языка
LBC	81.112
Document type	Master graduation qualification work
Language	Russian
Level of education	Master
Speciality code (FGOS)	45.04.04
Speciality group (FGOS)	450000 - Языкознание и литературоведение
DOI	10.18720/SPBPU/3/2024/vr/vr24-5804
Rights	Доступ по паролю из сети Интернет (чтение)
Record key	ru\spstu\vkr\33252
Record create date	8/29/2024

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

The object of the research is terms in the domain of automatic text processing in English and Russian language. The subject of investigation is building a bilingual glossary using automated tools. The objective of the study is extraction and comparative analysis of automatically extracted terms from parallel corpus of English and Russian texts in the domain of automatic text processing. The tasks of the study: Collect and analyse scientific literature and technical documentation on the master thesis topic. Analyse the existing methods of term extraction and select the most suitable approach to fulfill the research objective. Review existing English-Russian bilingual resources in the automatic text processing domain. Build and preprocess the parallel corpus in the automatic text processing domain. Employ selected algorithms to extract terms from the parallel corpus. Analyse and systemise extracted terminology. The research methodologies include methods of corpus linguistics, quantitative data analysis, comparative analysis of terms and computer data processing technologies. As a result of the study the automatic term extraction algorithm was implemented on a bilingual corpus of texts in the domain of automatic text processing in English and Russian, leading to the creation of a bilingual glossary. The bilingual glossary in the domain of automatic text processing can be leveraged to enhance automatic machine translation systems, integrated into document summarisation tasks, or incorporated into educational materials and curriculum development for natural language processing courses.

Объект исследования: термины в области автоматической обработки текста на английском и русском языках. Предмет: создание двуязычного глоссария с использованием автоматизированных средств. Цель: автоматическое извлечение и сравнительный анализ терминов из параллельного корпуса на английском и русском языке в области автоматической обработки текста. Задачи: собрать и проанализировать научную литературу и техническую документацию по теме работы; проанализировать существующие методы извлечения терминов и выбрать подходящий для достижения цели исследования; изучить существующие англо-русские ресурсы в области автоматической обработки текста; собрать и предобработать параллельный корпус; применить выбранный алгоритм извлечения терминов из параллельного корпуса; проанализировать и систематизировать извлеченные термины. Методы исследования: методы корпусной лингвистики, количественного анализа данных, сравнительного анализа терминов и компьютерных технологий обработки данных. В результате исследования алгоритм автоматического извлечения терминов был применен к двуязычному корпусу текстов в области автоматической обработки текстов на английском и русском языках, что позволило сформировать двуязычный глоссарий, который может быть использован для улучшения систем автоматической обработки текста или включен в учебные материалы и учебные программы курсов по обработке естественного языка.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 8
Last 30 days: 1

Detailed usage statistics