Детальная информация

Название: Разработка автоматического многозначного классификатора текстов: выпускная квалификационная работа бакалавра: направление 09.03.01 «Информатика и вычислительная техника» ; образовательная программа 09.03.01_02 «Технологии разработки программного обеспечения»
Авторы: Шульга Даниил Александрович
Научный руководитель: Богач Наталья Владимировна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения: Санкт-Петербург, 2024
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: многозначная классификация; трансформеры; предобработка текста; машинное обучение; медицинские; multilabel classification; transformers; text preprocessing; machine learning; medical data; neural networks; data visualization
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.01
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2024/vr/vr24-2632
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно: Новинка
Ключ записи: ru\spstu\vkr\30312

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Данная работа посвящена разработке автоматического многозначного класси-фикатора текстов, предназначенного для эффективной обработки и категори-зации аннотаций научных статей. В ходе выполнения работы были изучены и сравнены различные методы многозначной классификации, также были оценены возможности и ограни-чения каждого из методов с точки зрения точности, скорости обработки и способности к масштабированию. Проведен анализ и предобработка исходно-го датасета, включающего аннотации научных статей из базы данных PubMed. Разработана и оптимизирована модель, основанная на адаптированной для выполнения задач многозначной классификации архитектуре трансформер. Реализованная модель успешно применена для автоматического многозначно-го классифицирования текстов аннотаций научных статей, демонстрируя от-личные результаты по всем выбранным метрикам оценки производительно-сти. Предложены направления для дальнейшего развития исследования.

This work is dedicated to the development of an automatic multilabel text classifier designed for efficient processing and categorization of scientific article annotations. In the course of the work, various multilabel classification methods were ex-plored and compared, and the capabilities and limitations of each method were as-sessed in terms of accuracy, processing speed, and scalability. An analysis and pre-processing of the original dataset, which includes annotations of scientific articles from the PubMed database, were conducted. A model based on a transformer archi-tecture adapted for multilabel classification tasks was developed and optimized. The implemented model was successfully applied to the automatic multilabel classifica-tion of text annotations of scientific articles, demonstrating excellent results across all selected performance evaluation metrics. Directions for further research development have been proposed.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Статистика использования

stat Количество обращений: 0
За последние 30 дней: 0
Подробная статистика