Details
| Title | Optimization of Natural Language Processing Approaches for Enhanced Accuracy in Consumer Preferences Interpretation in the Real Estate Domain: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)» |
|---|---|
| Creators | Иванова Ольга Витальевна |
| Scientific adviser | Дмитриев Александр Владиславович |
| Organization | Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт |
| Imprint | Санкт-Петербург, 2025 |
| Collection | Выпускные квалификационные работы ; Общая коллекция |
| Subjects | natural language processing ; consumer preferences ; topic modelling ; sentiment analysis ; pre-trained language models ; real estate market ; machine learning ; recommendation systems ; обработка естественного языка ; предпочтения потребителей ; тематическое моделирование ; анализ тональности ; предобученные языковые модели ; рынок недвижимости ; машинное обучение ; рекомендательные системы |
| Document type | Master graduation qualification work |
| File type | |
| Language | Russian |
| Level of education | Master |
| Speciality code (FGOS) | 45.04.04 |
| Speciality group (FGOS) | 450000 - Языкознание и литературоведение |
| DOI | 10.18720/SPBPU/3/2025/vr/vr25-3914 |
| Rights | Доступ по паролю из сети Интернет (чтение) |
| Additionally | New arrival |
| Record key | ru\spstu\vkr\37593 |
| Record create date | 9/19/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
| Group | Anonymous |
|---|---|
| Network | Internet |
The graduate qualification work is devoted to the optimization of natural language processing (NLP) methods to improve the accuracy of interpreting consumer preferences in the real estate sector. The relevance of the study is due to the need to adapt intelligent language models to the specifics of professional terminology and behavioral patterns of users of digital platforms for renting and selling housing. The theoretical analysis considers the key components of modern NLP systems, including tokenization, syntactic and semantic parsing, sentiment analysis and discourse structures. Particular attention is paid to the evolution of methods from statistical models to transformer architectures (BERT, RoBERTa, GPT), as well as issues of additional training of models on specialized corpora of texts from the real estate sector. An overview of the challenges associated with the interpretation of complex user queries, multifactorial preferences and regional language variations in the texts of ads and reviews is provided. In the practical part, several NLP pipelines were implemented and comparatively evaluated using the spaCy, NLTK and Hugging Face Transformers libraries. A system for extracting features from object descriptions and reviews was developed, sentiment and topic modeling were carried out, as well as hybrid architectures (NLP + ML) were tested. The result was the creation of an improved model for predicting user preferences based on text data analysis, which showed increased accuracy in F1 and NDCG metrics. The results obtained can be applied in real proptech services to improve personalization and efficiency of digital platforms.
Данная выпускная квалификационная работа посвящена оптимизации методов обработки естественного языка (NLP) с целью повышения точности интерпретации потребительских предпочтений в сфере недвижимости. Актуальность исследования обусловлена необходимостью адаптации интеллектуальных языковых моделей к специфике профессиональной терминологии и поведенческих паттернов пользователей цифровых платформ по аренде и продаже жилья. В ходе теоретического анализа рассмотрены ключевые компоненты современных NLP-систем, включая токенизацию, синтаксический и семантический разбор, анализ тональности и дискурсивные структуры. Особое внимание уделено эволюции методов от статистических моделей к архитектурам трансформеров (BERT, RoBERTa, GPT), а также вопросам дообучения моделей на специализированных корпусах текстов из сферы недвижимости. Проведен обзор вызовов, связанных с интерпретацией сложных пользовательских запросов, многофакторных предпочтений и региональных языковых вариаций в текстах объявлений и отзывов. В практической части реализованы и сравнительно оценены несколько NLP-пайплайнов с использованием библиотек spaCy, NLTK и Hugging Face Transformers. Разработана система извлечения признаков из описаний объектов и отзывов, проведено тональное и тематическое моделирование, а также тестирование гибридных архитектур (NLP + ML). Итогом стало создание улучшенной модели прогнозирования предпочтений пользователей на основе анализа текстовых данных, показавшей повышенную точность по метрикам F1 и NDCG. Полученные результаты могут быть применимы в реальных proptech-сервисах для повышения персонализации и эффективности цифровых платформ.
| Network | User group | Action |
|---|---|---|
| ILC SPbPU Local Network | All |
|
| Internet | Authorized users SPbPU |
|
| Internet | Anonymous |
|
Access count: 0
Last 30 days: 0