Details
Title | Оптимизация алгоритмов тематического моделирования на материале русскоязычных и англоязычных песенных текстов: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)» |
---|---|
Creators | Бояршинов Евгений Юрьевич |
Scientific adviser | Белов Вадим Алексеевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | тематическое моделирование ; песенные тексты ; дальнее чтение ; nlp ; корпуса текстов ; диахроническое исследование ; topic modeling ; song lyrics ; distant reading ; preprocessing ; text corpora ; diachronic study |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 45.04.04 |
Speciality group (FGOS) | 450000 - Языкознание и литературоведение |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-3916 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Additionally | New arrival |
Record key | ru\spstu\vkr\37595 |
Record create date | 9/19/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Выпускная квалификационная работа «Оптимизация алгоритмов тематического моделирования на материале русскоязычных и англоязычных песенных текстов» посвящена изучению особенностей песенного дискурса, влияющих на процедуру тематического моделирования. В исследовании рассматриваются лингвистические и структурные характеристики песенных текстов, осложняющие их автоматизированный анализ. В теоретической главе описаны лингвистические сложности работы с художественными текстами, а также обзор современных алгоритмов тематического моделирования. Особое внимание уделено выбору и адаптации алгоритмов для работы с художественными текстами. Были сопоставлены три модели – NMF, LDA и BERTopic с точки зрения интерпретируемости и чувствительности к контексту. BERTopic была выбрана в качестве наиболее эффективной благодаря способности учитывать смысловые нюансы нестандартных текстов. Отдельный акцент сделан на оптимизации этапов предобработки текста: нормализация, удаление жанровых стоп-слов и фильтрация повторяющихся структур для повышения точности модели. Исследование показало, что адаптация предобработки под особенности песенного дискурса значительно улучшает интерпретируемость выделяемых тематических кластеров. Полученные результаты подтвердили актуальность жанровой оптимизации при применении инструментов NLP к художественным текстам. Разработанная методика может служить основой для дальнейших исследований в области компьютерной лингвистики, культурной аналитики и междисциплинарных исследований языка и медиа.
The gradual qualification work titled «Optimization of Topic Modeling Algorithms on Russian-language and English-language Song Lyrics» investigates the peculiarities of song lyrics domain affecting topic modeling procedure. The study explores linguistic and structural features of song texts that complicate computational analysis, including figurative language, culturally specific vocabulary (slang, neologisms, borrowings), and repetitive compositional patterns. Theoretical foundations cover the role of songs as reflections of cultural and social change, the linguistic challenges of working with artistic texts, and an overview of modern topic modeling algorithms. Particular attention is given to selecting and adapting algorithms for handling the figurative and creative nature of lyrics. Three models – NMF, LDA, and BERTopic were compared in terms of interpretability and contextual sensitivity. BERTopic was selected as the most effective due to its ability to capture semantic nuances in non-standard texts. Special emphasis was placed on optimizing preprocessing procedures, including text normalization, noise reduction, and filtering of repetitive structures to improve model performance. The research demonstrated that fine-tuning preprocessing specifically for song discourse significantly enhances the coherence and interpretability of extracted topics. The results confirmed the relevance of domain-specific optimization for applying NLP tools to artistic texts. The developed methodology provides a foundation for further research in computational linguistics, cultural analytics, and interdisciplinary studies of language and media.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
- INTRODUCTION
- CHAPTER 1. THEORETICAL APPROACHES TO STUDYING SONG
- 1.1Song lyrics as an object of scientific research
- 1.2Linguistic features of song texts
- 1.2.1Figurative devices
- 1.2.2Lexical means of expression
- 1.2.3Structural features
- 1.3Topic modeling techniques
- 1.3.1Non-negative Matrix Factorization
- 1.3.2Latent Dirichlet Allocation
- 1.3.3BERTopic
- Discussions of the first chapter
- CHAPTER 2. PRACTICAL FRAMEWORK FOR SONG LYRICS DYN
- 2.1 Review of song lyrics dataset
- 2.2 Domain-specific topic modeling adjustments
- 2.3 Human judgement as a benchmark for the propose
- 2.4 Dynamic topic modeling of Russian- and English
- Discussions of the second chapter
- CONCLUSION
- REFERENCES
- APPENDIX 1 Overview of multilingual multi-figurati
- APPENDIX 2 NMF topic modeling results for the Engl
- APPENDIX 3 NMF topic modeling results for the Russ
- APPENDIX 4 NMF topic modeling results for the Russ
- APPENDIX 5 NMF topic modeling results for the Engl
- APPENDIX 6 BERTopic modeling results for the Russi
- APPENDIX 7 BERTopic modeling results for the Engli
- APPENDIX 8 Distribution of the most frequent words
- APPENDIX 9 Distribution of the most frequent words
Access count: 0
Last 30 days: 0