Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
Настоящая выпускная работа содержит результаты анализа современных методов обнаружения спама. Были исследованы алгоритмы word2vec, предложен способ по улучшению этих алгоритмов - построение векторов с учетом входящих в слово морфем. На основе улучшенного алгоритма предложен способ для обнаружения спама с использованием word2vec, способ протестирован на обычном word2vec и на word2vec с морфемной модификацией. Произведена оценка реализованных алгоритмов.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Table of Contents
- Институт компьютерных наук и технологий
- Кафедра «Информационная безопасность компьютерных систем»
- Зав. кафедрой
- д.т.н., проф.
- _________________ Д.П. Зегжда
- ЗАДАНИЕ
- ПЕРЕЧЕНЬ СОКРАЩЕНИЙ
- ВВЕДЕНИЕ
- 1 ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ ОБНАРУЖЕНИЯ СПАМА
- 1.1. Распределенные методы
- 1.1.1. Сбор спама с помощью адресов -"ловушек"
- 1.1.2. Голосование пользователей
- 1.1.3. Анализ всей поступающей почты
- 1.2. Методы с анализом содержимого (контент-методы)
- 1.3. Преимущества и недостатки существующих методов
- 1.1. Распределенные методы
- 1.4. Обоснование необходимости совмещения распределенных и контент-методов
- 2 ИСПОЛЬЗОВАНИЕ МОРФЕМНОГО РАЗБОРА ДЛЯ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА
- 2.1. Общее описание метода
- 2.2. Разработка алгоритма морфемного разбора слов
- 2.3. Составление специальных словарей морфем
- 2.4. Разработка модуля пересчета векторной модели текста
- 2.5. Апробация новой модели на задаче классификации
- 3 ПРИМЕНЕНИЕ МОРФЕМНОГО РАЗБОРА ДЛЯ ПОИСКА СПАМА МЕТОДАМИ КОНТЕНТ-АНАЛИЗА
- 3.1. Обоснование необходимости улучшения современных контент-методов
- 3.2. Алгоритм использования морфемного разбора при анализе естественного языка для поиска спама
- 3.3. Реализация алгоритма
- 3.4. Обзор результатов работы и оценка эффективности
- ЗАКЛЮЧЕНИЕ
- СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Usage statistics
Access count: 108
Last 30 days: 3 Detailed usage statistics |