Разработка модели машинного обучения для классификации текста: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_03 «Разработка программного обеспечения»

Брицова, Анастасия Николаевна

Details

	Table	Card	RUSMARC

Title:	Разработка модели машинного обучения для классификации текста: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_03 «Разработка программного обеспечения»
Creators:	Брицова Анастасия Николаевна
Scientific adviser:	Селин Иван Андреевич
Organization:	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint:	Санкт-Петербург, 2022
Collection:	Выпускные квалификационные работы; Общая коллекция
Subjects:	машинное обучение; классификация текста; анализ текста; machine learning; text classification; text analysis
Document type:	Bachelor graduation qualification work
File type:	PDF
Language:	Russian
Level of education:	Bachelor
Speciality code (FGOS):	09.03.04
Speciality group (FGOS):	090000 - Информатика и вычислительная техника
DOI:	10.18720/SPBPU/3/2022/vr/vr22-3718
Rights:	Доступ по паролю из сети Интернет (чтение, печать)
Record key:	ru\spstu\vkr\19904

Allowed Actions: –

Action 'Read' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Тема выпускной квалификационной работы: «Разработка модели машинного обучения для классификации текста». Данная работа посвящена разработке модели машинного обучения для классификации процентного соотношения жестокого текста на языке программирования Python. Задачи, которые решались в ходе исследования: Определение актуальности разрабатываемой модели и изучение существующих решений. Анализ процесса построения модели классификации текста. Выбор метода классификации текста. Выбор метрики для классификации текста. Написание парсера для сбора данных для построения модели машинного обучение. Обработка собранных данных. Построение модели машинного обучения. Анализ работы созданной модели. Создание интерфейса для классификации на основе библиотеки Django. Разработка модели машинного обучения проведена на языке Python с помощью облачной среды для работы с кодом Google Collaboratory, с применением библиотек Pandas, sk-learn, Catboost. Создание веб-интерфейса было с помощью библиотеки Django. В результате выполнения работы была разработана модель машинного обучения, и создан веб-интерфейс для нахождения процента жестокого текста в документе.

The theme of the final qualifying work is: Developing of machine learning’s model for text classification. This work is about machine learning’s model for classification of books by ratio of cruelty in given text. As base programming language was used python. Main targets which were solved during this work: Understanding relevancy for developed model and examination of existing solutions. Analyzing the process of text classification model construction. Choosing of method for text classification. Determining of base metrics for text classification. Creation system for collecting data for using in developing of machine learning model. Processing collected data. Creation of machine learning model. Analyzing of the results of work of the created model. Developing the web application for using the created model through web interface. Developing of machine learning model was performed with using python programming language and Google Collaboratory cloud platform. During development of model were used Pandas, SK-Learn, Catboost libraries. For creation of web interface was used Django framework.As the result of the work was developed the machine learning model for determine ratio of cruelty in a text and provided web interface which give opportunity to use the created model.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		Authorized users SPbPU
	Internet		Anonymous

ВВЕДЕНИЕ
1. ПОСТАНОВКА ЗАДАЧИ
- 1.1 Анализ существующих решений
- 1.2 Сбор данных
- 1.3 Очистка и обработка данных
- 1.4 Выбор метрики
- 1.5 Методы классификации
  - 1.5.1 Метод k-ближайший соседей
  - 1.5.2 Метод опорных векторов
  - 1.5.3 Дерево решений
  - 1.5.4 Наивный байесовский метод
  - 1.5.5 Логистическая регрессия
  - 1.5.6 Ансамбли методов
  - 1.5.7 Резюме по выбору метода классификации
- 1.6 Язык программирования Python
- 1.7 Библиотека Pandas
- 1.8 Библиотека Sklearn
- 1.9 Фреймворк Django
2. РЕАЛИЗАЦИЯ
- 2.1 Архитектура проекта
- 2.2 Сбор данных.
- 2.3 Обработка данных
  - 2.3.1 Загрузка, очистка и обработка данных.
  - 2.3.2 Визуализация данных
- 2.4 Создание модели машинного обучения
- 2.5 Создание веб сервиса для анализа текста
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Usage statistics

Access count: 6
Last 30 days: 0
Detailed usage statistics

Details

Annotation

Document access rights

Table of Contents

Usage statistics