Детальная информация

Название: Разработка модели машинного обучения для классификации текста: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_03 «Разработка программного обеспечения»
Авторы: Брицова Анастасия Николаевна
Научный руководитель: Селин Иван Андреевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2022
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: машинное обучение; классификация текста; анализ текста; machine learning; text classification; text analysis
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 09.03.04
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2022/vr/vr22-3718
Права доступа: Доступ по паролю из сети Интернет (чтение, печать)
Ключ записи: ru\spstu\vkr\19904

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема выпускной квалификационной работы: «Разработка модели машинного обучения для классификации текста». Данная работа посвящена разработке модели машинного обучения для классификации процентного соотношения жестокого текста на языке программирования Python. Задачи, которые решались в ходе исследования: Определение актуальности разрабатываемой модели и изучение существующих решений. Анализ процесса построения модели классификации текста. Выбор метода классификации текста. Выбор метрики для классификации текста. Написание парсера для сбора данных для построения модели машинного обучение. Обработка собранных данных. Построение модели машинного обучения. Анализ работы созданной модели. Создание интерфейса для классификации на основе библиотеки Django. Разработка модели машинного обучения проведена на языке Python с помощью облачной среды для работы с кодом Google Collaboratory, с применением библиотек Pandas, sk-learn, Catboost. Создание веб-интерфейса было с помощью библиотеки Django. В результате выполнения работы была разработана модель машинного обучения, и создан веб-интерфейс для нахождения процента жестокого текста в документе.

The theme of the final qualifying work is: Developing of machine learning’s model for text classification. This work is about machine learning’s model for classification of books by ratio of cruelty in given text. As base programming language was used python. Main targets which were solved during this work: Understanding relevancy for developed model and examination of existing solutions. Analyzing the process of text classification model construction. Choosing of method for text classification. Determining of base metrics for text classification. Creation system for collecting data for using in developing of machine learning model. Processing collected data. Creation of machine learning model. Analyzing of the results of work of the created model. Developing the web application for using the created model through web interface. Developing of machine learning model was performed with using python programming language and Google Collaboratory cloud platform. During development of model were used Pandas, SK-Learn, Catboost libraries. For creation of web interface was used Django framework.As the result of the work was developed the machine learning model for determine ratio of cruelty in a text and provided web interface which give opportunity to use the created model.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать
Интернет Авторизованные пользователи СПбПУ Прочитать Печать
-> Интернет Анонимные пользователи

Оглавление

  • ВВЕДЕНИЕ
  • 1. ПОСТАНОВКА ЗАДАЧИ
    • 1.1 Анализ существующих решений
    • 1.2 Сбор данных
    • 1.3 Очистка и обработка данных
    • 1.4 Выбор метрики
    • 1.5 Методы классификации
      • 1.5.1 Метод k-ближайший соседей
      • 1.5.2 Метод опорных векторов
      • 1.5.3 Дерево решений
      • 1.5.4 Наивный байесовский метод
      • 1.5.5 Логистическая регрессия
      • 1.5.6 Ансамбли методов
      • 1.5.7 Резюме по выбору метода классификации
    • 1.6 Язык программирования Python
    • 1.7 Библиотека Pandas
    • 1.8 Библиотека Sklearn
    • 1.9 Фреймворк Django
  • 2. РЕАЛИЗАЦИЯ
    • 2.1 Архитектура проекта
    • 2.2 Сбор данных.
    • 2.3 Обработка данных
      • 2.3.1 Загрузка, очистка и обработка данных.
      • 2.3.2 Визуализация данных
    • 2.4 Создание модели машинного обучения
    • 2.5 Создание веб сервиса для анализа текста
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Статистика использования

stat Количество обращений: 5
За последние 30 дней: 0
Подробная статистика