Детальная информация
| Название | Optimization of Natural Language Processing Approaches for Enhanced Accuracy in Consumer Preferences Interpretation in the Real Estate Domain: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)» |
|---|---|
| Авторы | Иванова Ольга Витальевна |
| Научный руководитель | Дмитриев Александр Владиславович |
| Организация | Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт |
| Выходные сведения | Санкт-Петербург, 2025 |
| Коллекция | Выпускные квалификационные работы ; Общая коллекция |
| Тематика | natural language processing ; consumer preferences ; topic modelling ; sentiment analysis ; pre-trained language models ; real estate market ; machine learning ; recommendation systems ; обработка естественного языка ; предпочтения потребителей ; тематическое моделирование ; анализ тональности ; предобученные языковые модели ; рынок недвижимости ; машинное обучение ; рекомендательные системы |
| Тип документа | Выпускная квалификационная работа магистра |
| Тип файла | |
| Язык | Русский |
| Уровень высшего образования | Магистратура |
| Код специальности ФГОС | 45.04.04 |
| Группа специальностей ФГОС | 450000 - Языкознание и литературоведение |
| DOI | 10.18720/SPBPU/3/2025/vr/vr25-3914 |
| Права доступа | Доступ по паролю из сети Интернет (чтение) |
| Дополнительно | Новинка |
| Ключ записи | ru\spstu\vkr\37593 |
| Дата создания записи | 19.09.2025 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
| Группа | Анонимные пользователи |
|---|---|
| Сеть | Интернет |
The graduate qualification work is devoted to the optimization of natural language processing (NLP) methods to improve the accuracy of interpreting consumer preferences in the real estate sector. The relevance of the study is due to the need to adapt intelligent language models to the specifics of professional terminology and behavioral patterns of users of digital platforms for renting and selling housing. The theoretical analysis considers the key components of modern NLP systems, including tokenization, syntactic and semantic parsing, sentiment analysis and discourse structures. Particular attention is paid to the evolution of methods from statistical models to transformer architectures (BERT, RoBERTa, GPT), as well as issues of additional training of models on specialized corpora of texts from the real estate sector. An overview of the challenges associated with the interpretation of complex user queries, multifactorial preferences and regional language variations in the texts of ads and reviews is provided. In the practical part, several NLP pipelines were implemented and comparatively evaluated using the spaCy, NLTK and Hugging Face Transformers libraries. A system for extracting features from object descriptions and reviews was developed, sentiment and topic modeling were carried out, as well as hybrid architectures (NLP + ML) were tested. The result was the creation of an improved model for predicting user preferences based on text data analysis, which showed increased accuracy in F1 and NDCG metrics. The results obtained can be applied in real proptech services to improve personalization and efficiency of digital platforms.
Данная выпускная квалификационная работа посвящена оптимизации методов обработки естественного языка (NLP) с целью повышения точности интерпретации потребительских предпочтений в сфере недвижимости. Актуальность исследования обусловлена необходимостью адаптации интеллектуальных языковых моделей к специфике профессиональной терминологии и поведенческих паттернов пользователей цифровых платформ по аренде и продаже жилья. В ходе теоретического анализа рассмотрены ключевые компоненты современных NLP-систем, включая токенизацию, синтаксический и семантический разбор, анализ тональности и дискурсивные структуры. Особое внимание уделено эволюции методов от статистических моделей к архитектурам трансформеров (BERT, RoBERTa, GPT), а также вопросам дообучения моделей на специализированных корпусах текстов из сферы недвижимости. Проведен обзор вызовов, связанных с интерпретацией сложных пользовательских запросов, многофакторных предпочтений и региональных языковых вариаций в текстах объявлений и отзывов. В практической части реализованы и сравнительно оценены несколько NLP-пайплайнов с использованием библиотек spaCy, NLTK и Hugging Face Transformers. Разработана система извлечения признаков из описаний объектов и отзывов, проведено тональное и тематическое моделирование, а также тестирование гибридных архитектур (NLP + ML). Итогом стало создание улучшенной модели прогнозирования предпочтений пользователей на основе анализа текстовых данных, показавшей повышенную точность по метрикам F1 и NDCG. Полученные результаты могут быть применимы в реальных proptech-сервисах для повышения персонализации и эффективности цифровых платформ.
| Место доступа | Группа пользователей | Действие |
|---|---|---|
| Локальная сеть ИБК СПбПУ | Все |
|
| Интернет | Авторизованные пользователи СПбПУ |
|
| Интернет | Анонимные пользователи |
|
Количество обращений: 0
За последние 30 дней: 0