Details

Title Оптимизация алгоритмов тематического моделирования на материале русскоязычных и англоязычных песенных текстов: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)»
Creators Бояршинов Евгений Юрьевич
Scientific adviser Белов Вадим Алексеевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects тематическое моделирование ; песенные тексты ; дальнее чтение ; nlp ; корпуса текстов ; диахроническое исследование ; topic modeling ; song lyrics ; distant reading ; preprocessing ; text corpora ; diachronic study
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 45.04.04
Speciality group (FGOS) 450000 - Языкознание и литературоведение
DOI 10.18720/SPBPU/3/2025/vr/vr25-3916
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key ru\spstu\vkr\37595
Record create date 9/19/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Выпускная квалификационная работа «Оптимизация алгоритмов тематического моделирования на материале русскоязычных и англоязычных песенных текстов» посвящена изучению особенностей песенного дискурса, влияющих на процедуру тематического моделирования. В исследовании рассматриваются лингвистические и структурные характеристики песенных текстов, осложняющие их автоматизированный анализ. В теоретической главе описаны лингвистические сложности работы с художественными текстами, а также обзор современных алгоритмов тематического моделирования. Особое внимание уделено выбору и адаптации алгоритмов для работы с художественными текстами. Были сопоставлены три модели – NMF, LDA и BERTopic с точки зрения интерпретируемости и чувствительности к контексту. BERTopic была выбрана в качестве наиболее эффективной благодаря способности учитывать смысловые нюансы нестандартных текстов. Отдельный акцент сделан на оптимизации этапов предобработки текста: нормализация, удаление жанровых стоп-слов и фильтрация повторяющихся структур для повышения точности модели. Исследование показало, что адаптация предобработки под особенности песенного дискурса значительно улучшает интерпретируемость выделяемых тематических кластеров. Полученные результаты подтвердили актуальность жанровой оптимизации при применении инструментов NLP к художественным текстам. Разработанная методика может служить основой для дальнейших исследований в области компьютерной лингвистики, культурной аналитики и междисциплинарных исследований языка и медиа.

The gradual qualification work titled «Optimization of Topic Modeling Algorithms on Russian-language and English-language Song Lyrics» investigates the peculiarities of song lyrics domain affecting topic modeling procedure. The study explores linguistic and structural features of song texts that complicate computational analysis, including figurative language, culturally specific vocabulary (slang, neologisms, borrowings), and repetitive compositional patterns. Theoretical foundations cover the role of songs as reflections of cultural and social change, the linguistic challenges of working with artistic texts, and an overview of modern topic modeling algorithms. Particular attention is given to selecting and adapting algorithms for handling the figurative and creative nature of lyrics. Three models – NMF, LDA, and BERTopic were compared in terms of interpretability and contextual sensitivity. BERTopic was selected as the most effective due to its ability to capture semantic nuances in non-standard texts. Special emphasis was placed on optimizing preprocessing procedures, including text normalization, noise reduction, and filtering of repetitive structures to improve model performance. The research demonstrated that fine-tuning preprocessing specifically for song discourse significantly enhances the coherence and interpretability of extracted topics. The results confirmed the relevance of domain-specific optimization for applying NLP tools to artistic texts. The developed methodology provides a foundation for further research in computational linguistics, cultural analytics, and interdisciplinary studies of language and media.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous
  • INTRODUCTION
  • CHAPTER 1. THEORETICAL APPROACHES TO STUDYING SONG
    • 1.1Song lyrics as an object of scientific research
    • 1.2Linguistic features of song texts
      • 1.2.1Figurative devices
      • 1.2.2Lexical means of expression
      • 1.2.3Structural features
    • 1.3Topic modeling techniques
      • 1.3.1Non-negative Matrix Factorization
      • 1.3.2Latent Dirichlet Allocation
      • 1.3.3BERTopic
    • Discussions of the first chapter
  • CHAPTER 2. PRACTICAL FRAMEWORK FOR SONG LYRICS DYN
    • 2.1 Review of song lyrics dataset
    • 2.2 Domain-specific topic modeling adjustments
    • 2.3 Human judgement as a benchmark for the propose
    • 2.4 Dynamic topic modeling of Russian- and English
    • Discussions of the second chapter
  • CONCLUSION
  • REFERENCES
  • APPENDIX 1 Overview of multilingual multi-figurati
  • APPENDIX 2 NMF topic modeling results for the Engl
  • APPENDIX 3 NMF topic modeling results for the Russ
  • APPENDIX 4 NMF topic modeling results for the Russ
  • APPENDIX 5 NMF topic modeling results for the Engl
  • APPENDIX 6 BERTopic modeling results for the Russi
  • APPENDIX 7 BERTopic modeling results for the Engli
  • APPENDIX 8 Distribution of the most frequent words
  • APPENDIX 9 Distribution of the most frequent words

Access count: 0 
Last 30 days: 0

Detailed usage statistics