Детальная информация

Название: Применение методов анализа естественного языка для обнаружения спама: бакалаврская работа: 10.03.01
Авторы: Яковлева Юлия Вячеславовна
Научный руководитель: Платонов Владимир Владимирович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2017
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: векторная модель текста; сентимент-анализ; семантический анализ; естественный язык; спам; анализ электронной почты
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 10.03.01
Группа специальностей ФГОС: 100000 - Информационная безопасность
DOI: 10.18720/SPBPU/2/v17-4892
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: RU\SPSTU\edoc\49673

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Настоящая выпускная работа содержит результаты анализа современных методов обнаружения спама. Были исследованы алгоритмы word2vec, предложен способ по улучшению этих алгоритмов - построение векторов с учетом входящих в слово морфем. На основе улучшенного алгоритма предложен способ для обнаружения спама с использованием word2vec, способ протестирован на обычном word2vec и на word2vec с морфемной модификацией. Произведена оценка реализованных алгоритмов.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • Институт компьютерных наук и технологий
  • Кафедра «Информационная безопасность компьютерных систем»
  • Зав. кафедрой
  • д.т.н., проф.
  • _________________ Д.П. Зегжда
  • ЗАДАНИЕ
  • ПЕРЕЧЕНЬ СОКРАЩЕНИЙ
  • ВВЕДЕНИЕ
  • 1 ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ ОБНАРУЖЕНИЯ СПАМА
    • 1.1. Распределенные методы
      • 1.1.1. Сбор спама с помощью адресов -"ловушек"
      • 1.1.2. Голосование пользователей
      • 1.1.3. Анализ всей поступающей почты
    • 1.2. Методы с анализом содержимого (контент-методы)
    • 1.3. Преимущества и недостатки существующих методов
  • 1.4. Обоснование необходимости совмещения распределенных и контент-методов
  • 2 ИСПОЛЬЗОВАНИЕ МОРФЕМНОГО РАЗБОРА ДЛЯ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА
    • 2.1. Общее описание метода
    • 2.2. Разработка алгоритма морфемного разбора слов
    • 2.3. Составление специальных словарей морфем
    • 2.4. Разработка модуля пересчета векторной модели текста
    • 2.5. Апробация новой модели на задаче классификации
  • 3 ПРИМЕНЕНИЕ МОРФЕМНОГО РАЗБОРА ДЛЯ ПОИСКА СПАМА МЕТОДАМИ КОНТЕНТ-АНАЛИЗА
    • 3.1. Обоснование необходимости улучшения современных контент-методов
    • 3.2. Алгоритм использования морфемного разбора при анализе естественного языка для поиска спама
    • 3.3. Реализация алгоритма
    • 3.4. Обзор результатов работы и оценка эффективности
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Статистика использования

stat Количество обращений: 108
За последние 30 дней: 3
Подробная статистика