Разработка модели машинного обучения с использованием трансформера для оценки новизны научных статей: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»

Ли Сыюань

Details

Title	Разработка модели машинного обучения с использованием трансформера для оценки новизны научных статей: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»
Creators	Ли Сыюань
Scientific adviser	Уткин Лев Владимирович
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint	Санкт-Петербург, 2024
Collection	Выпускные квалификационные работы; Общая коллекция
Subjects	автоматизированная система; глубокое обучение; обработка естественного языка; оценка новизны; распознавание сущностей; связь метод-задача; анализ научной литературы; automated system; deep learning; natural language processing; novelty assessment; entity recognition; method-task relation; scientific literature analysis
Document type	Master graduation qualification work
File type	PDF
Language	Russian
Level of education	Master
Speciality code (FGOS)	02.04.01
Speciality group (FGOS)	020000 - Компьютерные и информационные науки
DOI	10.18720/SPBPU/3/2024/vr/vr24-6432
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	ru\spstu\vkr\33274
Record create date	8/29/2024

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Данная работа посвящена разработке автоматизированной системы на основе глубокого обучения и обработки естественного языка для оценки новизны научно-технических статей.История развития науки и техники полна значительными прорывами и теоретическими инновациями, каждый из которых способствовал прогрессу человечества. Начиная с 19 века, по мере быстрого развития технологий, количество публикаций в научной литературе также быстро увеличивалось, что создавало вызовы для традиционных процессов рецензирования. Новизна является основным критерием при оценке статей. Для решения проблемы оценки новизны в данном исследовании предложена система, объединяющая распознавание сущностей, извлечение связей между сущностями и расчет показателя новизны. Система использует передовые технологии распознавания сущностей для обработки заголовков и аннотаций литературы, чтобы точно идентифицировать сущности "методы" и "задачи". Затем, с помощью специально разработанной модели, определяются связи "используется для" между этими сущностями и отбираются практически значимые пары метод-задача. Для тестирования системы использовались данные, не включенные в тренировочный набор. Проведён t-тест для анализа связи между методами, задачами и их комбинацией с показателем новизны. В результате t-теста с использованием аннотированных данных было установлено, что "метод-задача" комбинация значимо коррелирует с показателем новизны, что подтверждает правильность использованных методов и процессов в данном исследовании. Этот результат также показывает, что инновации в научных исследованиях часто происходят благодаря новым комбинациям методов и задач. Результаты данного исследования могут быть применены для автоматизированного анализа научной литературы, предоставляя исследователям ценные рекомендации при выборе тем исследований и повышая эффективность работы рецензентов.

The given work is devoted to the development of an automated system based on deep learning and natural language processing for assessing the novelty of scien-tific and technical articles. The history of science and technology is full of signifi-cant breakthroughs and theoretical innovations, each contributing to the progress of humanity. Starting from the 19th century, as technologies rapidly developed, the number of publications in scientific literature also increased quickly, creating chal-lenges for traditional peer review processes. Novelty is a key criterion in the evaluation of articles. To address the prob-lem of novelty assessment, this study proposes a system that combines entity recognition, relationship extraction between entities, and novelty score calculation. The system uses advanced entity recognition technologies to process the titles and abstracts of the literature, accurately identifying entities such as "methods" and "tasks." Then, using a specially developed model, "used-for" relationships between these entities are determined, and practically significant method-task pairs are se-lected. To test the system, data not included in the training set were used. A t-test was conducted to analyze the relationship between methods, tasks, and their com-bination with the novelty score. As a result of the t-test using annotated data, it was established that the "method-task" combination significantly correlates with the novelty score, confirming the correctness of the methods and processes used in this study. This result also shows that innovations in scientific research often occur due to new combinations of methods and tasks. The results of this study can be applied to the automated analysis of scientific literature, providing researchers with valuable recommendations when choosing research topics and increasing the efficiency of reviewers work.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 0
Last 30 days: 0

Detailed usage statistics