Details

Title: Разработка автоматического многозначного классификатора текстов: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»
Creators: Шульга Даниил Александрович
Scientific adviser: Богач Наталья Владимировна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint: Санкт-Петербург, 2024
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: многозначная классификация; трансформеры; предобработка текста; машинное обучение; медицинские; multilabel classification; transformers; text preprocessing; machine learning; medical data; neural networks; data visualization
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 09.03.01
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2024/vr/vr24-2632
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally: New arrival
Record key: ru\spstu\vkr\30312

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Данная работа посвящена разработке автоматического многозначного класси-фикатора текстов, предназначенного для эффективной обработки и категори-зации аннотаций научных статей. В ходе выполнения работы были изучены и сравнены различные методы многозначной классификации, также были оценены возможности и ограни-чения каждого из методов с точки зрения точности, скорости обработки и способности к масштабированию. Проведен анализ и предобработка исходно-го датасета, включающего аннотации научных статей из базы данных PubMed. Разработана и оптимизирована модель, основанная на адаптированной для выполнения задач многозначной классификации архитектуре трансформер. Реализованная модель успешно применена для автоматического многозначно-го классифицирования текстов аннотаций научных статей, демонстрируя от-личные результаты по всем выбранным метрикам оценки производительно-сти. Предложены направления для дальнейшего развития исследования.

This work is dedicated to the development of an automatic multilabel text classifier designed for efficient processing and categorization of scientific article annotations. In the course of the work, various multilabel classification methods were ex-plored and compared, and the capabilities and limitations of each method were as-sessed in terms of accuracy, processing speed, and scalability. An analysis and pre-processing of the original dataset, which includes annotations of scientific articles from the PubMed database, were conducted. A model based on a transformer archi-tecture adapted for multilabel classification tasks was developed and optimized. The implemented model was successfully applied to the automatic multilabel classifica-tion of text annotations of scientific articles, demonstrating excellent results across all selected performance evaluation metrics. Directions for further research development have been proposed.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 0
Last 30 days: 0
Detailed usage statistics