Детальная информация

Название Building a Corpus of Multiword Idiomatic Expressions in the Context of Cinematic Discourse (Based on English-language Legal Drama Films): выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)»
Авторы Полякова Арина Андреевна
Научный руководитель Коган Марина Самуиловна
Организация Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика multiword expressions ; idiomaticity ; cinematic discourse ; legal drama ; natural language processing (nlp) ; многокомпонентные выражения ; идиоматичность ; кинематографический дискурс ; юридическая драма ; автоматическая обработка естественного языка (аоея)
Тип документа Выпускная квалификационная работа магистра
Тип файла PDF
Язык Русский
Уровень высшего образования Магистратура
Код специальности ФГОС 45.04.04
Группа специальностей ФГОС 450000 - Языкознание и литературоведение
DOI 10.18720/SPBPU/3/2025/vr/vr25-3915
Права доступа Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\37594
Дата создания записи 19.09.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

The graduate qualification work explores multiword idiomatic expressions in the context of legal drama films , with the goal of developing a specialized corpus of such expressions as they appear in the dialogue of films within the legal drama genre. Corpora from the English-language COCA family, specifically TV/Movies and Spoken, were used to verify the identified idiomatic expressions and to assess the feasibility of using these resources in the construction of a dedicated corpus. The following tasks were addressed during the research: 1) to collect and analyze scientific literature and technical documentation on all aspects of the master thesis topic; 2) to compile and pre-process a corpus of the scripts of English-language legal drama films released between 2020 and 2025 as the primary source for collecting idiomatic expressions; 3) to identify idiomatic multiword expressions in the scripts, by applying statistical methods and manual validation in relevant English corpora (within COCA family); 4) to create an annotated corpus of verified idiomatic expressions; 5) to evaluate how the corpus can improve machine translation systems, particularly in translating idiomatic expressions accurately. The identification of idiomatic expressions involved both manual extraction and computational techniques, including Pointwise Mutual Information (PMI), part-of-speech (POS) tagging, and idiomaticity detection using a BERT-based model. The findings indicate that idiomatic expressions in legal dramas are highly context-dependent and semantically opaque. The study reveals the limitations of current natural language processing (NLP) tools in detecting low-frequency and domain-specific idioms, underscoring the need for a hybrid approach that combines manual annotation with computational methods. The research lays the groundwork for future studies in linguistics, NLP, and legal English pedagogy. To achieve these results, the project employed and developed various information technologies, including a pipeline with the implementation of Python-based NLP libraries (NLTK, spaCy), BERT-based models for idiomaticity detection, cloud services for data storage and processing, and linguistic databases from the COCA corpus family.

В выпускной квалификационной работе рассматриваются многокомпонентные идиоматические выражения в контексте юридических драматических фильмов с целью разработки корпуса многокомпонентных выражений, представленных в диалогах фильмов жанра «юридическая драма». Корпуса из семейства англоязычных корпусов COCA TV/Movies и Spoken использовались для верификации идиоматических выражений и оценки возможности применения данного ресурса при создании специализированного корпуса. В ходе исследования были решены следующие задачи: 1) сбор и анализ научной литературы, охватывающей все аспекты темы, включая классификацию идиом, методики их извлечения и принципы корпусного анализа, особенности кинодискурса, его роль в обучении иностранному языку и др.; 2) поиск и предварительная обработка сценариев англоязычных юридических драм, выпущенных в период с 2020 по 2025 год, которые выступают в качестве основного источника идиоматических выражений; 3)разработка алгоритма выделения идиоматических многокомпонентных выражений из сценариев с использованием статистических методов (метрика Pointwise Mutual Information), методов POS-теггинга, а также ручной валидации на основе релевантных корпусов английского языка, входящих в семейство COCA; 4) оценка возможности создания корпуса для обучения моделей для задач автоматического извлечения и перевода идиоматических выражений; 5) разработка учебных заданий для освоения выделенных идиоматических выражений в курсе английского языка. Исследование показало, что идиоматические выражения в юридических драмах сильно зависят от контекста и обладают семантической непрозрачностью. Выявлены ограничения современных инструментов автоматической обработки естественного языка (АОЕЯ) в обнаружении идиом. Исследование закладывает основу для будущих исследований в области лингвистики, АОЕЯ и преподавания юридического английского. Для достижения результатов в работе были использованы и разработаны различные информационные технологии, включая код с реализацией Python-библиотек для NLP (NLTK, spaCy), моделей на основе BERT для определения идиоматичности, облачные сервисы для хранения и обработки данных, а также лингвистические базы данных семейства корпусов COCA.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ
Прочитать Печать Загрузить
Интернет Анонимные пользователи
  • contents
  • INTRODUCTION
  • CHAPTER 1. THEORETICAL FOUNDATIONS OF THE STUDY OF MULTI-COMPONENT EXPRESSIONS IN THE CINEMATIC DISCOURSE
    • 1.1. The concept of multiword expressions: classification and linguistic features
  • 1.2. Legal drama cinematic discourse as a source of authentic idiomatic expressions
    • 1.3. The concept of idiomaticity and its challenges for automatic recognition
  • 1.4. Methodology of idiomatic expression verification and alternative approaches
    • 1.5. Corpus linguistics as a methodology for studying linguistic data
    • 1.6. Analysis of existing methods for multiword expressions extracting and recognition in NLP
  • Conclusions on chapter 1
    • CHAPTER 2. CREATION AND ANALYSIS OF A CORPUS OF MULTI-WORD EXPRESSIONS BASED ON ENGLISH-LANGUAGE LEGAL DRAMA FILMS
    • 2.1. Film script selection criteria and data collection
    • 2.2. Implementation of automatic methods of idiomaticity recognition
  • 2.3. Back-translation as the main method of idiomaticity verification
  • 2.4. Frequency analysis of idioms and comparison with reference corpora
  • 2.5. Corpus construction and annotation process
  • 2.6. Use of the idiomatic expression corpus in the development of teaching materials
  • 2.7. Possible strategies of corpus expansion and future directions
  • Conclusions on chapter 2
  • CONCLUSION
  • LIST OF references
  • Appendix 1. List of idiomatic expressions found in scripts manually
  • Appendix 2. The results of back-translation of idiomatic expressions
  • Appendix 3. Fragment and link to constructed corpora
  • Appendix 4. Extracting n-grams from the script
  • Appendix 5. Pointwise mutual information score extracting
  • Appendix 6. Part-of-speech tagging
  • Appendix 7. Implementing pre-trained BERT-based idiom classifier model
  • Appendix 8. Automatization of corpora annotating

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика