Оптимизация алгоритмов тематического моделирования на материале русскоязычных и англоязычных песенных текстов: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)»

Бояршинов, Евгений Юрьевич

Детальная информация

Название	Оптимизация алгоритмов тематического моделирования на материале русскоязычных и англоязычных песенных текстов: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)»
Авторы	Бояршинов Евгений Юрьевич
Научный руководитель	Белов Вадим Алексеевич
Организация	Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт
Выходные сведения	Санкт-Петербург, 2025
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	тематическое моделирование ; песенные тексты ; дальнее чтение ; nlp ; корпуса текстов ; диахроническое исследование ; topic modeling ; song lyrics ; distant reading ; preprocessing ; text corpora ; diachronic study
Тип документа	Выпускная квалификационная работа магистра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Магистратура
Код специальности ФГОС	45.04.04
Группа специальностей ФГОС	450000 - Языкознание и литературоведение
DOI	10.18720/SPBPU/3/2025/vr/vr25-3916
Права доступа	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно	Новинка
Ключ записи	ru\spstu\vkr\37595
Дата создания записи	19.09.2025

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Выпускная квалификационная работа «Оптимизация алгоритмов тематического моделирования на материале русскоязычных и англоязычных песенных текстов» посвящена изучению особенностей песенного дискурса, влияющих на процедуру тематического моделирования. В исследовании рассматриваются лингвистические и структурные характеристики песенных текстов, осложняющие их автоматизированный анализ. В теоретической главе описаны лингвистические сложности работы с художественными текстами, а также обзор современных алгоритмов тематического моделирования. Особое внимание уделено выбору и адаптации алгоритмов для работы с художественными текстами. Были сопоставлены три модели – NMF, LDA и BERTopic с точки зрения интерпретируемости и чувствительности к контексту. BERTopic была выбрана в качестве наиболее эффективной благодаря способности учитывать смысловые нюансы нестандартных текстов. Отдельный акцент сделан на оптимизации этапов предобработки текста: нормализация, удаление жанровых стоп-слов и фильтрация повторяющихся структур для повышения точности модели. Исследование показало, что адаптация предобработки под особенности песенного дискурса значительно улучшает интерпретируемость выделяемых тематических кластеров. Полученные результаты подтвердили актуальность жанровой оптимизации при применении инструментов NLP к художественным текстам. Разработанная методика может служить основой для дальнейших исследований в области компьютерной лингвистики, культурной аналитики и междисциплинарных исследований языка и медиа.

The gradual qualification work titled «Optimization of Topic Modeling Algorithms on Russian-language and English-language Song Lyrics» investigates the peculiarities of song lyrics domain affecting topic modeling procedure. The study explores linguistic and structural features of song texts that complicate computational analysis, including figurative language, culturally specific vocabulary (slang, neologisms, borrowings), and repetitive compositional patterns. Theoretical foundations cover the role of songs as reflections of cultural and social change, the linguistic challenges of working with artistic texts, and an overview of modern topic modeling algorithms. Particular attention is given to selecting and adapting algorithms for handling the figurative and creative nature of lyrics. Three models – NMF, LDA, and BERTopic were compared in terms of interpretability and contextual sensitivity. BERTopic was selected as the most effective due to its ability to capture semantic nuances in non-standard texts. Special emphasis was placed on optimizing preprocessing procedures, including text normalization, noise reduction, and filtering of repetitive structures to improve model performance. The research demonstrated that fine-tuning preprocessing specifically for song discourse significantly enhances the coherence and interpretability of extracted topics. The results confirmed the relevance of domain-specific optimization for applying NLP tools to artistic texts. The developed methodology provides a foundation for further research in computational linguistics, cultural analytics, and interdisciplinary studies of language and media.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

INTRODUCTION
CHAPTER 1. THEORETICAL APPROACHES TO STUDYING SONG
- 1.1Song lyrics as an object of scientific research
- 1.2Linguistic features of song texts
  - 1.2.1Figurative devices
  - 1.2.2Lexical means of expression
  - 1.2.3Structural features
- 1.3Topic modeling techniques
  - 1.3.1Non-negative Matrix Factorization
  - 1.3.2Latent Dirichlet Allocation
  - 1.3.3BERTopic
- Discussions of the first chapter
CHAPTER 2. PRACTICAL FRAMEWORK FOR SONG LYRICS DYN
- 2.1 Review of song lyrics dataset
- 2.2 Domain-specific topic modeling adjustments
- 2.3 Human judgement as a benchmark for the propose
- 2.4 Dynamic topic modeling of Russian- and English
- Discussions of the second chapter
CONCLUSION
REFERENCES
APPENDIX 1 Overview of multilingual multi-figurati
APPENDIX 2 NMF topic modeling results for the Engl
APPENDIX 3 NMF topic modeling results for the Russ
APPENDIX 4 NMF topic modeling results for the Russ
APPENDIX 5 NMF topic modeling results for the Engl
APPENDIX 6 BERTopic modeling results for the Russi
APPENDIX 7 BERTopic modeling results for the Engli
APPENDIX 8 Distribution of the most frequent words
APPENDIX 9 Distribution of the most frequent words

Количество обращений: 0
За последние 30 дней: 0

Подробная статистика