Details

Title: Применение методов анализа естественного языка для обнаружения спама: бакалаврская работа: 10.03.01
Creators: Яковлева Юлия Вячеславовна
Scientific adviser: Платонов Владимир Владимирович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2017
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: векторная модель текста; сентимент-анализ; семантический анализ; естественный язык; спам; анализ электронной почты
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 10.03.01
Speciality group (FGOS): 100000 - Информационная безопасность
DOI: 10.18720/SPBPU/2/v17-4892
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: RU\SPSTU\edoc\49673

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Настоящая выпускная работа содержит результаты анализа современных методов обнаружения спама. Были исследованы алгоритмы word2vec, предложен способ по улучшению этих алгоритмов - построение векторов с учетом входящих в слово морфем. На основе улучшенного алгоритма предложен способ для обнаружения спама с использованием word2vec, способ протестирован на обычном word2vec и на word2vec с морфемной модификацией. Произведена оценка реализованных алгоритмов.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Table of Contents

  • Институт компьютерных наук и технологий
  • Кафедра «Информационная безопасность компьютерных систем»
  • Зав. кафедрой
  • д.т.н., проф.
  • _________________ Д.П. Зегжда
  • ЗАДАНИЕ
  • ПЕРЕЧЕНЬ СОКРАЩЕНИЙ
  • ВВЕДЕНИЕ
  • 1 ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ ОБНАРУЖЕНИЯ СПАМА
    • 1.1. Распределенные методы
      • 1.1.1. Сбор спама с помощью адресов -"ловушек"
      • 1.1.2. Голосование пользователей
      • 1.1.3. Анализ всей поступающей почты
    • 1.2. Методы с анализом содержимого (контент-методы)
    • 1.3. Преимущества и недостатки существующих методов
  • 1.4. Обоснование необходимости совмещения распределенных и контент-методов
  • 2 ИСПОЛЬЗОВАНИЕ МОРФЕМНОГО РАЗБОРА ДЛЯ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА
    • 2.1. Общее описание метода
    • 2.2. Разработка алгоритма морфемного разбора слов
    • 2.3. Составление специальных словарей морфем
    • 2.4. Разработка модуля пересчета векторной модели текста
    • 2.5. Апробация новой модели на задаче классификации
  • 3 ПРИМЕНЕНИЕ МОРФЕМНОГО РАЗБОРА ДЛЯ ПОИСКА СПАМА МЕТОДАМИ КОНТЕНТ-АНАЛИЗА
    • 3.1. Обоснование необходимости улучшения современных контент-методов
    • 3.2. Алгоритм использования морфемного разбора при анализе естественного языка для поиска спама
    • 3.3. Реализация алгоритма
    • 3.4. Обзор результатов работы и оценка эффективности
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Usage statistics

stat Access count: 108
Last 30 days: 3
Detailed usage statistics