Разработка системы для автоматизированного сравнения смысловой близости рассуждений в процессе code-review с использованием методов машинного обучения: выпускная квалификационная работа магистра: направление 01.04.03 «Механика и математическое моделирование» ; образовательная программа 01.04.03_03 «Механика и цифровое производство»

Алексеенко, Егор Андреевич

Details

Title	Разработка системы для автоматизированного сравнения смысловой близости рассуждений в процессе code-review с использованием методов машинного обучения: выпускная квалификационная работа магистра: направление 01.04.03 «Механика и математическое моделирование» ; образовательная программа 01.04.03_03 «Механика и цифровое производство»
Creators	Алексеенко Егор Андреевич
Scientific adviser	Иванов Владимир Михайлович
Organization	Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	аргументативный анализ ; извлечение аргументов ; оценка смысловой близости ; code-review ; токен-классификация ; семантическое соответствие ; автоматизация оценивания ; argument mining ; argument extraction ; semantic similarity evaluation ; code review ; token classification ; semantic correspondence ; automated assessment
Document type	Master graduation qualification work
File type	PDF
Language	Russian
Level of education	Master
Speciality code (FGOS)	01.04.03
Speciality group (FGOS)	010000 - Математика и механика
DOI	10.18720/SPBPU/3/2025/vr/vr25-4005
Rights	Доступ по паролю из сети Интернет (чтение)
Additionally	New arrival
Record key	ru\spstu\vkr\38614
Record create date	9/23/2025

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

В данной работе рассматривается разработка прототипа интеллектуальной системы для автоматизированной оценки смысловой близости комментариев в задачах на code-review. Цель исследования заключается в применении методов аргументативного анализа (argument mining) и современных моделей обработки естественного языка для извлечения, структурирования и сравнения аргументов, содержащихся в свободно сформулированных текстах. Методика включает разметку текстовых данных с использованием схемы BIO, обучение модели на основе архитектуры BERT (модель DeepPavlov/rubert-base-cased) для задачи токен-классификации, а также применение предварительно обученной модели cointegrated/rubert-tiny2 для получения эмбеддингов аргументов и вычисления семантической близости между ними. Результатом исследования стал программный прототип, способный автоматически выделять аргументы в текстах, сравнивать их и формировать метрику соответствия между комментариями пользователя и эталонным ответом. Система позволяет стандартизировать подход к оценке задач со свободным ответом, обеспечивая объективность и воспроизводимость результатов. Кроме того, предлагаемый подход может быть адаптирован для оценки ответов и в других образовательных или экспертных сценариях, выходящих за рамки code-review. Полученные результаты подтверждают эффективность выбранной архитектуры и применённых методов, а также демонстрируют потенциал дальнейшего масштабирования системы при расширении объёма обучающих данных.

This work presents the development of a prototype of a system for the automated evaluation of semantic similarity between comments in code review tasks. The goal of the research is to apply methods of argument mining and modern natural language processing (NLP) models to extract, structure, and compare arguments expressed in free-form text. The methodology includes annotation of textual data using the BIO tagging scheme, training a model based on the BERT architecture (DeepPavlov/rubert-basecased) for the token classification task, and applying a pre-trained model (cointegrated/rubert-tiny2) to generate argument embeddings and compute their semantic similarity. The result of the research is a software prototype capable of automatically extracting arguments from text, comparing them, and generating a similarity metric between a users comment and a reference answer. The system provides a standardized approach to evaluating free-form responses, ensuring objectivity and reproducibility. Moreover, the proposed approach can be adapted for assessing answers in other educational or expert contexts beyond code review. The obtained results confirm the effectiveness of the chosen architecture and applied methods and demonstrate the potential for further system scaling through expansion of training data volume.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 0
Last 30 days: 0

Detailed usage statistics