Разработка модели машинного обучения для классификации текста: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_03 «Разработка программного обеспечения» = Development of a machine learning model for text classification

Брицова, Анастасия Николаевна

Детальная информация

Название	Разработка модели машинного обучения для классификации текста: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_03 «Разработка программного обеспечения» = Development of a machine learning model for text classification
Авторы	Брицова Анастасия Николаевна
Научный руководитель	Селин Иван Андреевич
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения	Санкт-Петербург, 2022
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	машинное обучение ; классификация текста ; анализ текста ; machine learning ; text classification ; text analysis
Тип документа	Выпускная квалификационная работа бакалавра
Язык	Русский
Уровень высшего образования	Бакалавриат
Код специальности ФГОС	09.03.04
Группа специальностей ФГОС	090000 - Информатика и вычислительная техника
DOI	10.18720/SPBPU/3/2022/vr/vr22-3718
Права доступа	Доступ по паролю из сети Интернет (чтение, печать)
Ключ записи	ru\spstu\vkr\19904
Дата создания записи	18.01.2023

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Тема выпускной квалификационной работы: «Разработка модели машинного обучения для классификации текста». Данная работа посвящена разработке модели машинного обучения для классификации процентного соотношения жестокого текста на языке программирования Python. Задачи, которые решались в ходе исследования: Определение актуальности разрабатываемой модели и изучение существующих решений. Анализ процесса построения модели классификации текста. Выбор метода классификации текста. Выбор метрики для классификации текста. Написание парсера для сбора данных для построения модели машинного обучение. Обработка собранных данных. Построение модели машинного обучения. Анализ работы созданной модели. Создание интерфейса для классификации на основе библиотеки Django. Разработка модели машинного обучения проведена на языке Python с помощью облачной среды для работы с кодом Google Collaboratory, с применением библиотек Pandas, sk-learn, Catboost. Создание веб-интерфейса было с помощью библиотеки Django. В результате выполнения работы была разработана модель машинного обучения, и создан веб-интерфейс для нахождения процента жестокого текста в документе.

The theme of the final qualifying work is: Developing of machine learning’s model for text classification. This work is about machine learning’s model for classification of books by ratio of cruelty in given text. As base programming language was used python. Main targets which were solved during this work: Understanding relevancy for developed model and examination of existing solutions. Analyzing the process of text classification model construction. Choosing of method for text classification. Determining of base metrics for text classification. Creation system for collecting data for using in developing of machine learning model. Processing collected data. Creation of machine learning model. Analyzing of the results of work of the created model. Developing the web application for using the created model through web interface. Developing of machine learning model was performed with using python programming language and Google Collaboratory cloud platform. During development of model were used Pandas, SK-Learn, Catboost libraries. For creation of web interface was used Django framework.As the result of the work was developed the machine learning model for determine ratio of cruelty in a text and provided web interface which give opportunity to use the created model.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

ВВЕДЕНИЕ
1. ПОСТАНОВКА ЗАДАЧИ
- 1.1 Анализ существующих решений
- 1.2 Сбор данных
- 1.3 Очистка и обработка данных
- 1.4 Выбор метрики
- 1.5 Методы классификации
  - 1.5.1 Метод k-ближайший соседей
  - 1.5.2 Метод опорных векторов
  - 1.5.3 Дерево решений
  - 1.5.4 Наивный байесовский метод
  - 1.5.5 Логистическая регрессия
  - 1.5.6 Ансамбли методов
  - 1.5.7 Резюме по выбору метода классификации
- 1.6 Язык программирования Python
- 1.7 Библиотека Pandas
- 1.8 Библиотека Sklearn
- 1.9 Фреймворк Django
2. РЕАЛИЗАЦИЯ
- 2.1 Архитектура проекта
- 2.2 Сбор данных.
- 2.3 Обработка данных
  - 2.3.1 Загрузка, очистка и обработка данных.
  - 2.3.2 Визуализация данных
- 2.4 Создание модели машинного обучения
- 2.5 Создание веб сервиса для анализа текста
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Количество обращений: 18
За последние 30 дней: 0

Подробная статистика