Details

Title Разработка системы для автоматизированного сравнения смысловой близости рассуждений в процессе code-review с использованием методов машинного обучения: выпускная квалификационная работа магистра: направление 01.04.03 «Механика и математическое моделирование» ; образовательная программа 01.04.03_03 «Механика и цифровое производство»
Creators Алексеенко Егор Андреевич
Scientific adviser Иванов Владимир Михайлович
Organization Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects аргументативный анализ ; извлечение аргументов ; оценка смысловой близости ; code-review ; токен-классификация ; семантическое соответствие ; автоматизация оценивания ; argument mining ; argument extraction ; semantic similarity evaluation ; code review ; token classification ; semantic correspondence ; automated assessment
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 01.04.03
Speciality group (FGOS) 010000 - Математика и механика
DOI 10.18720/SPBPU/3/2025/vr/vr25-4005
Rights Доступ по паролю из сети Интернет (чтение)
Additionally New arrival
Record key ru\spstu\vkr\38614
Record create date 9/23/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Group Anonymous
Network Internet

В данной работе рассматривается разработка прототипа интеллектуальной системы для автоматизированной оценки смысловой близости комментариев в задачах на code-review. Цель исследования заключается в применении методов аргументативного анализа (argument mining) и современных моделей обработки естественного языка для извлечения, структурирования и сравнения аргументов, содержащихся в свободно сформулированных текстах. Методика включает разметку текстовых данных с использованием схемы BIO, обучение модели на основе архитектуры BERT (модель DeepPavlov/rubert-base-cased) для задачи токен-классификации, а также применение предварительно обученной модели cointegrated/rubert-tiny2 для получения эмбеддингов аргументов и вычисления семантической близости между ними. Результатом исследования стал программный прототип, способный автоматически выделять аргументы в текстах, сравнивать их и формировать метрику соответствия между комментариями пользователя и эталонным ответом. Система позволяет стандартизировать подход к оценке задач со свободным ответом, обеспечивая объективность и воспроизводимость результатов. Кроме того, предлагаемый подход может быть адаптирован для оценки ответов и в других образовательных или экспертных сценариях, выходящих за рамки code-review. Полученные результаты подтверждают эффективность выбранной архитектуры и применённых методов, а также демонстрируют потенциал дальнейшего масштабирования системы при расширении объёма обучающих данных.

This work presents the development of a prototype of a system for the automated evaluation of semantic similarity between comments in code review tasks. The goal of the research is to apply methods of argument mining and modern natural language processing (NLP) models to extract, structure, and compare arguments expressed in free-form text. The methodology includes annotation of textual data using the BIO tagging scheme, training a model based on the BERT architecture (DeepPavlov/rubert-basecased) for the token classification task, and applying a pre-trained model (cointegrated/rubert-tiny2) to generate argument embeddings and compute their semantic similarity. The result of the research is a software prototype capable of automatically extracting arguments from text, comparing them, and generating a similarity metric between a users comment and a reference answer. The system provides a standardized approach to evaluating free-form responses, ensuring objectivity and reproducibility. Moreover, the proposed approach can be adapted for assessing answers in other educational or expert contexts beyond code review. The obtained results confirm the effectiveness of the chosen architecture and applied methods and demonstrate the potential for further system scaling through expansion of training data volume.

Network User group Action
ILC SPbPU Local Network All
Read
Internet Authorized users SPbPU
Read
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics