Детальная информация

Название: Распознавание спам-сообщений с использованием методов машинного обучения: выпускная квалификационная работа бакалавра: направление 27.03.03 «Системный анализ и управление» ; образовательная программа 27.03.03_01 «Теория и математические методы системного анализа и управления в технических, экономичеcких и социальных системах»
Авторы: Хаммасова Луиза Шамилевна
Научный руководитель: Нестеров Сергей Александрович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2022
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: интеллектуальный анализ данных; машинное обучение; спам; методы классификации; mlp нейронная сеть; data mining; machine learning; spam; classification methods; mlp neural network
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 27.03.03
Группа специальностей ФГОС: 270000 - Управление в технических системах
DOI: 10.18720/SPBPU/3/2022/vr/vr22-2780
Права доступа: Доступ по паролю из сети Интернет (чтение, печать)
Ключ записи: ru\spstu\vkr\19715

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема выпускной квалификационной работы: «Распознавание спам-сообщений с использованием методов машинного обучения». Данная работа посвящена исследованию алгоритмов машинного обучения для задач классификации текстов на естественных языках, методам обработки текста на естественных языках и сравнению результатов обучения классификаторов на разных входных данных. Целью работы является сравнительный анализ результатов обучения классификаторов для распознавания спам-сообщений, которые были обучены на данных с разными параметрами обработки. Задачи, которые решались в ходе исследования: 1) Изучение методов машинного обучения, выбор наиболее подходящих алгоритмов машинного обучения (МО); 2) Выбор программных средств, с помощью которых будет производиться предобработка текстовых данных и обучение; 3) Предобработка текста с представлением данных в виде векторов признаков с использованием разных моделей; 4) Обучение моделей для классификации сообщений; 5) Сравнительный анализ результатов получившихся моделей.

The topic of the final qualifying work: "Recognition of spam messages using machine learning methods". This work is devoted to the study of machine learning algorithms for the classification of texts in natural languages, methods of text processing in natural languages and comparison of the results of training classifiers on different input data. The purpose of the work is a comparative analysis of the results of training classifiers for recognizing spam message. Tasks that were solved during the study: 1) Study of machine learning methods, analysis of more suitable machine learning algorithms (MO); 2) Selection of software tools with which text data preprocessing and training will be performed; 3) Text preprocessing with data representation in the form of feature vectors using different models; 4) Training models for message classification; 5) Comparative analysis of the results of the resulting models.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать
Интернет Авторизованные пользователи СПбПУ Прочитать Печать
-> Интернет Анонимные пользователи

Оглавление

  • РЕФЕРАТ
  • ABSTRACT
  • Содержание
  • Введение
  • ГЛАВА 1. ОБЗОР ПРЕДМЕТНОЙ ОБЛАСТИ
    • 1.1 Постановка задачи
    • 1.2 Задачи машинного обучения
      • 1.2.1 Задача классификации
      • 1.2.2 Кластеризация
      • 1.2.3 Задача определения взаимосвязей
      • 1.2.4 Секвенциальный анализ
    • 1.3 Алгоритмы машинного обучения
      • 1.3.1 Упрощенный алгоритм Байеса
      • 1.3.2 Метод k-ближайших соседей
      • 1.3.3 Метод опорных векторов
      • 1.3.4 Деревья решений
      • 1.3.5 Алгоритм k средних (k-means)
      • 1.3.6 MLP нейронная сеть
    • 1.4 Методики борьбы со спамом
  • ГЛАВА 2. ВЫБОР ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ И ОБРАБОТКА ДАННЫХ
    • 2.1 Python
    • 2.2 WEKA
    • 2.3 Сравнение характеристик
    • 2.4 Обзор набора данных
    • 2.5 Нормализация текстовых сообщений
    • 2.7 Трансформирование слов в векторы признаков
      • 2.7.1 Модель «мешка слов»
      • 2.7.2 Модель TF-IDF
  • ГЛАВА 3. ИСПОЛЬЗОВАНИЕ МЕТОДОВ И АЛГОРИТМОВ МАШИНОГО ОБУЧЕНИЯ
    • 3.1 Обучение моделей с помощью Python
      • 3.1.1 Метод Байеса
      • 3.1.2 Метод опорных векторов
      • 3.1.3 Метод k-ближайших соседей
      • 3.1.4 MLP нейронная сеть
    • 3.2 Обучение моделей машинного обучения в среде Weka
      • 3.2.1 Метод Байеса
      • 3.2.2 Метод опорных векторов
      • 3.2.3 Метод k-ближайших соседей
      • 3.2.4 MLP нейронная сеть
  • ГЛАВА 4. ОЦЕНКА КАЧЕСТВА РАБОТЫ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ
    • 4.1 Матрица ошибок
    • 4.2 ROC-кривая
    • 4.3 Тестирование на новых данных
  • Заключение
  • Список использованных источников
  • Приложение 1. Предобработка текста и построение модели «мешка слов».
  • Приложение 2. Предобработка текста и построение модели TF-IDF.
  • Приложение 3. Обучение и тест моделей, вычисление метрик
  • Приложение 4. Построение ROC-кривой вычисление AUC.

Статистика использования

stat Количество обращений: 15
За последние 30 дней: 0
Подробная статистика