С 17 марта 2020 г. для ресурсов (учебные, научные, материалы конференций, статьи из периодических изданий, авторефераты диссертаций, диссертации) ЭБ СПбПУ, обеспечивающих образовательный процесс, установлен особый режим использования. Обращаем внимание, что ВКР/НД не относятся к этой категории.

Детальная информация

Название: Применение методов анализа естественного языка для обнаружения спама: бакалаврская работа: 10.03.01
Авторы: Яковлева Юлия Вячеславовна
Научный руководитель: Платонов Владимир Владимирович
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2017
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: векторная модель текста; сентимент-анализ; семантический анализ; естественный язык; спам; анализ электронной почты
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Код специальности ФГОС: 10.03.01
Группа специальностей ФГОС: 100000 - Информационная безопасность
DOI: 10.18720/SPBPU/2/v17-4892
Права доступа: Свободный доступ из сети Интернет (чтение)

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Настоящая выпускная работа содержит результаты анализа современных методов обнаружения спама. Были исследованы алгоритмы word2vec, предложен способ по улучшению этих алгоритмов - построение векторов с учетом входящих в слово морфем. На основе улучшенного алгоритма предложен способ для обнаружения спама с использованием word2vec, способ протестирован на обычном word2vec и на word2vec с морфемной модификацией. Произведена оценка реализованных алгоритмов.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать
Интернет Авторизованные пользователи Прочитать
-> Интернет Анонимные пользователи

Оглавление

  • Институт компьютерных наук и технологий
  • Кафедра «Информационная безопасность компьютерных систем»
  • Зав. кафедрой
  • д.т.н., проф.
  • _________________ Д.П. Зегжда
  • ЗАДАНИЕ
  • ПЕРЕЧЕНЬ СОКРАЩЕНИЙ
  • ВВЕДЕНИЕ
  • 1 ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ ОБНАРУЖЕНИЯ СПАМА
    • 1.1. Распределенные методы
      • 1.1.1. Сбор спама с помощью адресов -"ловушек"
      • 1.1.2. Голосование пользователей
      • 1.1.3. Анализ всей поступающей почты
    • 1.2. Методы с анализом содержимого (контент-методы)
    • 1.3. Преимущества и недостатки существующих методов
  • 1.4. Обоснование необходимости совмещения распределенных и контент-методов
  • 2 ИСПОЛЬЗОВАНИЕ МОРФЕМНОГО РАЗБОРА ДЛЯ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА
    • 2.1. Общее описание метода
    • 2.2. Разработка алгоритма морфемного разбора слов
    • 2.3. Составление специальных словарей морфем
    • 2.4. Разработка модуля пересчета векторной модели текста
    • 2.5. Апробация новой модели на задаче классификации
  • 3 ПРИМЕНЕНИЕ МОРФЕМНОГО РАЗБОРА ДЛЯ ПОИСКА СПАМА МЕТОДАМИ КОНТЕНТ-АНАЛИЗА
    • 3.1. Обоснование необходимости улучшения современных контент-методов
    • 3.2. Алгоритм использования морфемного разбора при анализе естественного языка для поиска спама
    • 3.3. Реализация алгоритма
    • 3.4. Обзор результатов работы и оценка эффективности
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Статистика использования

stat Количество обращений: 94
За последние 30 дней: 0
Подробная статистика