Details
Title | Разработка модели машинного обучения с использованием трансформера для оценки новизны научных статей: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение» |
---|---|
Creators | Ли Сыюань |
Scientific adviser | Уткин Лев Владимирович |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2024 |
Collection | Выпускные квалификационные работы; Общая коллекция |
Subjects | автоматизированная система; глубокое обучение; обработка естественного языка; оценка новизны; распознавание сущностей; связь метод-задача; анализ научной литературы; automated system; deep learning; natural language processing; novelty assessment; entity recognition; method-task relation; scientific literature analysis |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 02.04.01 |
Speciality group (FGOS) | 020000 - Компьютерные и информационные науки |
DOI | 10.18720/SPBPU/3/2024/vr/vr24-6432 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Additionally | New arrival |
Record key | ru\spstu\vkr\33274 |
Record create date | 8/29/2024 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Данная работа посвящена разработке автоматизированной системы на основе глубокого обучения и обработки естественного языка для оценки новизны научно-технических статей.История развития науки и техники полна значительными прорывами и теоретическими инновациями, каждый из которых способствовал прогрессу человечества. Начиная с 19 века, по мере быстрого развития технологий, количество публикаций в научной литературе также быстро увеличивалось, что создавало вызовы для традиционных процессов рецензирования. Новизна является основным критерием при оценке статей. Для решения проблемы оценки новизны в данном исследовании предложена система, объединяющая распознавание сущностей, извлечение связей между сущностями и расчет показателя новизны. Система использует передовые технологии распознавания сущностей для обработки заголовков и аннотаций литературы, чтобы точно идентифицировать сущности "методы" и "задачи". Затем, с помощью специально разработанной модели, определяются связи "используется для" между этими сущностями и отбираются практически значимые пары метод-задача. Для тестирования системы использовались данные, не включенные в тренировочный набор. Проведён t-тест для анализа связи между методами, задачами и их комбинацией с показателем новизны. В результате t-теста с использованием аннотированных данных было установлено, что "метод-задача" комбинация значимо коррелирует с показателем новизны, что подтверждает правильность использованных методов и процессов в данном исследовании. Этот результат также показывает, что инновации в научных исследованиях часто происходят благодаря новым комбинациям методов и задач. Результаты данного исследования могут быть применены для автоматизированного анализа научной литературы, предоставляя исследователям ценные рекомендации при выборе тем исследований и повышая эффективность работы рецензентов.
The given work is devoted to the development of an automated system based on deep learning and natural language processing for assessing the novelty of scien-tific and technical articles. The history of science and technology is full of signifi-cant breakthroughs and theoretical innovations, each contributing to the progress of humanity. Starting from the 19th century, as technologies rapidly developed, the number of publications in scientific literature also increased quickly, creating chal-lenges for traditional peer review processes. Novelty is a key criterion in the evaluation of articles. To address the prob-lem of novelty assessment, this study proposes a system that combines entity recognition, relationship extraction between entities, and novelty score calculation. The system uses advanced entity recognition technologies to process the titles and abstracts of the literature, accurately identifying entities such as "methods" and "tasks." Then, using a specially developed model, "used-for" relationships between these entities are determined, and practically significant method-task pairs are se-lected. To test the system, data not included in the training set were used. A t-test was conducted to analyze the relationship between methods, tasks, and their com-bination with the novelty score. As a result of the t-test using annotated data, it was established that the "method-task" combination significantly correlates with the novelty score, confirming the correctness of the methods and processes used in this study. This result also shows that innovations in scientific research often occur due to new combinations of methods and tasks. The results of this study can be applied to the automated analysis of scientific literature, providing researchers with valuable recommendations when choosing research topics and increasing the efficiency of reviewers work.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 0
Last 30 days: 0