Детальная информация

Название Разработка системы для автоматизированного сравнения смысловой близости рассуждений в процессе code-review с использованием методов машинного обучения: выпускная квалификационная работа магистра: направление 01.04.03 «Механика и математическое моделирование» ; образовательная программа 01.04.03_03 «Механика и цифровое производство»
Авторы Алексеенко Егор Андреевич
Научный руководитель Иванов Владимир Михайлович
Организация Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика аргументативный анализ ; извлечение аргументов ; оценка смысловой близости ; code-review ; токен-классификация ; семантическое соответствие ; автоматизация оценивания ; argument mining ; argument extraction ; semantic similarity evaluation ; code review ; token classification ; semantic correspondence ; automated assessment
Тип документа Выпускная квалификационная работа магистра
Тип файла PDF
Язык Русский
Уровень высшего образования Магистратура
Код специальности ФГОС 01.04.03
Группа специальностей ФГОС 010000 - Математика и механика
DOI 10.18720/SPBPU/3/2025/vr/vr25-4005
Права доступа Доступ по паролю из сети Интернет (чтение)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\38614
Дата создания записи 23.09.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

В данной работе рассматривается разработка прототипа интеллектуальной системы для автоматизированной оценки смысловой близости комментариев в задачах на code-review. Цель исследования заключается в применении методов аргументативного анализа (argument mining) и современных моделей обработки естественного языка для извлечения, структурирования и сравнения аргументов, содержащихся в свободно сформулированных текстах. Методика включает разметку текстовых данных с использованием схемы BIO, обучение модели на основе архитектуры BERT (модель DeepPavlov/rubert-base-cased) для задачи токен-классификации, а также применение предварительно обученной модели cointegrated/rubert-tiny2 для получения эмбеддингов аргументов и вычисления семантической близости между ними. Результатом исследования стал программный прототип, способный автоматически выделять аргументы в текстах, сравнивать их и формировать метрику соответствия между комментариями пользователя и эталонным ответом. Система позволяет стандартизировать подход к оценке задач со свободным ответом, обеспечивая объективность и воспроизводимость результатов. Кроме того, предлагаемый подход может быть адаптирован для оценки ответов и в других образовательных или экспертных сценариях, выходящих за рамки code-review. Полученные результаты подтверждают эффективность выбранной архитектуры и применённых методов, а также демонстрируют потенциал дальнейшего масштабирования системы при расширении объёма обучающих данных.

This work presents the development of a prototype of a system for the automated evaluation of semantic similarity between comments in code review tasks. The goal of the research is to apply methods of argument mining and modern natural language processing (NLP) models to extract, structure, and compare arguments expressed in free-form text. The methodology includes annotation of textual data using the BIO tagging scheme, training a model based on the BERT architecture (DeepPavlov/rubert-basecased) for the token classification task, and applying a pre-trained model (cointegrated/rubert-tiny2) to generate argument embeddings and compute their semantic similarity. The result of the research is a software prototype capable of automatically extracting arguments from text, comparing them, and generating a similarity metric between a users comment and a reference answer. The system provides a standardized approach to evaluating free-form responses, ensuring objectivity and reproducibility. Moreover, the proposed approach can be adapted for assessing answers in other educational or expert contexts beyond code review. The obtained results confirm the effectiveness of the chosen architecture and applied methods and demonstrate the potential for further system scaling through expansion of training data volume.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать
Интернет Авторизованные пользователи СПбПУ
Прочитать
Интернет Анонимные пользователи

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика