Детальная информация
| Название | Automatic Summarization of User Agreements of Mobile Games: выпускная квалификационная работа магистра: направление 45.04.04 «Интеллектуальные системы в гуманитарной среде» ; образовательная программа 45.04.04_01 «Цифровая лингвистика (международная образовательная программа)/Digital Linguistics (International Educational Program)» |
|---|---|
| Авторы | Сухих Софья Михайловна |
| Научный руководитель | Коган Марина Самуиловна |
| Организация | Санкт-Петербургский политехнический университет Петра Великого. Гуманитарный институт |
| Выходные сведения | Санкт-Петербург, 2025 |
| Коллекция | Выпускные квалификационные работы ; Общая коллекция |
| Тематика | user agreements ; terms of use ; automatic text summarization ; extractive summarization ; cosine similarity ; legal documents ; пользовательские соглашения ; условия использования ; автоматическая суммаризация текстов ; экстрактивная суммаризация ; косинусная близость ; юридические документы |
| Тип документа | Выпускная квалификационная работа магистра |
| Тип файла | |
| Язык | Русский |
| Уровень высшего образования | Магистратура |
| Код специальности ФГОС | 45.04.04 |
| Группа специальностей ФГОС | 450000 - Языкознание и литературоведение |
| DOI | 10.18720/SPBPU/3/2025/vr/vr25-3918 |
| Права доступа | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
| Дополнительно | Новинка |
| Ключ записи | ru\spstu\vkr\37597 |
| Дата создания записи | 19.09.2025 |
Разрешенные действия
–
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
| Группа | Анонимные пользователи |
|---|---|
| Сеть | Интернет |
This work is devoted to proving the feasibility and possibility of embedding automatic text summarization into platforms hosting user agreements. Objectives, which were solved in the course of the research: − Collection and analysis of scientific literature and technical documentation on the topic of the masters thesis. − Studying the features of the texts of user agreements and their legal nature. − Characterization of the standard structure of legal documents in the sphere of mobile games. − Examination of types, methods and approaches to automatic text summarization. − Creation of a corpus of user agreements and preprocessing of the collected data. − Development of a questionnaire to identify user behaviour when working with user agreements. − Testing existing services for automatic text summarization. − Selection of an extractive summarization model and its adaptation to work with the collected corpus of texts. − Comparison of semantic similarity of original documents. The work was carried out on the basis of the collected material from the AppStore platform, where the legal documents considered in the context of this work are placed. Preliminary preprocessing was performed, including extraction of meaningful text data, removal of unnecessary tags and normalization of texts using a Python script. Summarized versions of the cleaned data were obtained using the online resource EditPad and the Sumy extractive summarization model. In addition, a survey of students at St. Petersburg Polytechnic University was developed and conducted using GoogleForms, and the cosine similarity of the original legal documents was calculated using the scikit-learn library. As a result, the tendency of mobile game users to ignore the texts of legal documents was identified and confirmed; the effectiveness of using existing tools for extractive text summarization was proved. In addition, we concluded that user agreements are formulaic and have similar semantic content. To achieve these results, the following information technologies were used in the work: GoogleForms, GoogleColab, GoogleSheets, VS Code, including software and cloud services. Also, 2 Python scripts were developed: for preprocessing the collected data and determining the cosine similarity of documents.
Данная работа посвящена доказательству целесообразности и возможности встраивания автоматической суммаризации текстов в платформы, размещающие пользовательские соглашения. Задачи, которые решались в ходе исследования: −Сбор и анализ научной литературы и технической документации по теме магистерской диссертации.− Изучение особенностей текстов пользовательских соглашений и их правовой природы. −Описание характеристик стандартной структуры юридических документов в сфере мобильных игр. −Рассмотрение видов, методов и подходов к автоматической суммаризации текстов. −Создание корпуса пользовательских соглашений и проведение предварительной обработки собранных данных. −Разработка анкеты для выявления поведения пользователей при работе с пользовательскими соглашениями. −Тестирование существующих ресурсов автоматической суммаризации текстов. −Выбор модели экстрактивной суммаризации и ее адаптация под работу с собранным корпусом текстов. − Сравнение семантического сходства оригинальных документов. Работа проведена на базе собранного материала с платформы AppStore, где размещаются рассматриваемые в контексте данной работы юридические документы. Была проведена их предварительная предобработка, включающая в себя вычленение смыслосодержащих текстовых данных, удаление ненужных тегов и нормализацию текстов с помощью Pythonскрипта. Суммаризированные версии очищенных данных были получены с помощью онлайн-ресурса EditPad и экстрактивной модели суммаризации Sumy. Кроме того, был разработан и проведен опрос студентов Санкт-Петербургского Политехнического университета с использованием GoogleForms, а также была рассчитана косинусная близость оригинальных юридических документов с помощью библиотеки scikit-learn.В результате была выявлена и подтверждена тенденция пользователей мобильных игр к игнорированию текстов юридических документов; доказана эффективность использования существующих инструментов экстрактивной суммаризации текстов. Кроме того, мы пришли к выводу, что пользовательские соглашения шаблонны и имеют схожее смысловое содержание. Для достижения данных результатов в работе были использованы следующие информационные технологии: GoogleForms, GoogleColab, GoogleSheets, VSCode, в том числе программное обеспечение и облачные сервисы. Также были разработаны 2 Python скрипта: для предобработки собранных данных и определения косинусной близости документов.
| Место доступа | Группа пользователей | Действие |
|---|---|---|
| Локальная сеть ИБК СПбПУ | Все |
|
| Интернет | Авторизованные пользователи СПбПУ |
|
| Интернет | Анонимные пользователи |
|
Количество обращений: 0
За последние 30 дней: 0