Детальная информация

Яковлева, Юлия Вячеславовна. Применение методов анализа естественного языка для обнаружения спама [Электронный ресурс]: бакалаврская работа: 10.03.01 / Ю. В. Яковлева; Санкт-Петербургский политехнический университет Петра Великого, Институт компьютерных наук и технологий ; науч. рук. В. В. Платонов. — Электрон. текстовые дан. (1 файл : 517 Кб). — Санкт-Петербург, 2017. — Загл. с титул. экрана. — Свободный доступ из сети Интернет (чтение). — Adobe Acrobat Reader 7.0. — <URL:http://elib.spbstu.ru/dl/2/v17-4892.pdf>. — <URL:http://doi.org/10.18720/SPBPU/2/v17-4892>.

Дата создания записи: 27.11.2017

Тематика: векторная модель текста; сентимент-анализ; семантический анализ; естественный язык; спам; анализ электронной почты

Коллекции: Выпускные квалификационные работы; Общая коллекция

Ссылки: DOI

Разрешенные действия: Прочитать Для чтения документа необходим Flash Player

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Настоящая выпускная работа содержит результаты анализа современных методов обнаружения спама. Были исследованы алгоритмы word2vec, предложен способ по улучшению этих алгоритмов - построение векторов с учетом входящих в слово морфем. На основе улучшенного алгоритма предложен способ для обнаружения спама с использованием word2vec, способ протестирован на обычном word2vec и на word2vec с морфемной модификацией. Произведена оценка реализованных алгоритмов.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать
-> Интернет Все Прочитать

Оглавление

  • Институт компьютерных наук и технологий
  • Кафедра «Информационная безопасность компьютерных систем»
  • Зав. кафедрой
  • д.т.н., проф.
  • _________________ Д.П. Зегжда
  • ЗАДАНИЕ
  • ПЕРЕЧЕНЬ СОКРАЩЕНИЙ
  • ВВЕДЕНИЕ
  • 1 ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ ОБНАРУЖЕНИЯ СПАМА
    • 1.1. Распределенные методы
      • 1.1.1. Сбор спама с помощью адресов -"ловушек"
      • 1.1.2. Голосование пользователей
      • 1.1.3. Анализ всей поступающей почты
    • 1.2. Методы с анализом содержимого (контент-методы)
    • 1.3. Преимущества и недостатки существующих методов
  • 1.4. Обоснование необходимости совмещения распределенных и контент-методов
  • 2 ИСПОЛЬЗОВАНИЕ МОРФЕМНОГО РАЗБОРА ДЛЯ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА
    • 2.1. Общее описание метода
    • 2.2. Разработка алгоритма морфемного разбора слов
    • 2.3. Составление специальных словарей морфем
    • 2.4. Разработка модуля пересчета векторной модели текста
    • 2.5. Апробация новой модели на задаче классификации
  • 3 ПРИМЕНЕНИЕ МОРФЕМНОГО РАЗБОРА ДЛЯ ПОИСКА СПАМА МЕТОДАМИ КОНТЕНТ-АНАЛИЗА
    • 3.1. Обоснование необходимости улучшения современных контент-методов
    • 3.2. Алгоритм использования морфемного разбора при анализе естественного языка для поиска спама
    • 3.3. Реализация алгоритма
    • 3.4. Обзор результатов работы и оценка эффективности
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Статистика использования документа

stat Количество обращений: 89
За последние 30 дней: 0
Подробная статистика