Детальная информация

Название: Поиск сходств в тексте электронных писем на основе графовых узорных структур: выпускная квалификационная работа магистра: направление 09.04.03 «Прикладная информатика» ; образовательная программа 09.04.03_04 «Прикладная информатика в области информационных ресурсов»
Авторы: Рябчук Егор Валерьевич
Научный руководитель: Щукин Александр Валентинович
Другие авторы: Пархоменко Владимир Андреевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2020
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: синтаксические деревья; поиск сходств; java; postreSQL; javascript; syntax trees; similarity search
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 09.04.03
Группа специальностей ФГОС: 090000 - Информатика и вычислительная техника
Ссылки: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1772
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\8388

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В данной работе описывается решение задачи поиска сходств в текстах электронных писем на основе синтаксических деревьев с помощью Gmail API. Даны общие математические определения теории решёток и детерминированы шаги алгоритмов построения полурешётки узорных концептов. Проведен анализ систем-прототипов, выявлены их сильные и слабые стороны. Программно реализованы алгоритмы Norris, CloseByOne, Niagara. Определена клиент-серверная архитектура приложения с взаимодействием с базой данных, для кеширования информации, с целью ускорения работы алгоритмов. Разработано кроссплатформенное программное обеспечение с графическим интерфейсом для поиска сходств в тексте электронных писем на базе реализованных алгоритмов. Реализована возможность классификации на базе синтаксических деревьев. Программное обеспечение было протестировано и сопоставлено с аналогичными системами. Даны рекомендации по улучшению качества итогового решения. Результаты исследований в дальнейшем можно использовать для классификации писем на базе почтового сервиса Gmail.

This paper describes the solution to the problem of finding similarities in the texts of emails based on syntax trees using the Gmail API. General mathematical definitions of lattice theory are given and the steps of algorithms for constructing semilattices of patterned concepts are determined. The analysis of prototype systems is carried out, their strengths and weaknesses are revealed. Software implemented algorithms Norris, CloseByOne, Niagara. The client-server architecture of the application with the interaction with the database is determined for caching information in order to accelerate the operation of algorithms. Cross-platform software with a graphical interface for searching for similarities in the text of emails based on implemented algorithms has been developed. The possibility of classification based on syntax trees has been implemented. The software has been tested and compared with similar systems. Recommendations are given on improving the quality of the final decision. Further research results can be used to classify letters based on the Gmail mail service.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • Поиск сходств в тексте электронных писем на основе графовых узорных структур
    • Введение
    • 1. Исследование предметной области анализа текстов
    • 2. Анализ алгоритмов поиска сходств текстов на основе узорных структур
    • 3. Разработка программного обеспечения
    • 4. Тестирование и апробация
    • Заключение
    • Список использованных источников
    • Приложение 1. Класс CloseByOne
    • Приложение 2. Класс Norris
    • Приложение 3. Класс MailController
    • Приложение 4. Класс EditViewDTO
    • Приложение 5. Класс TableViewDTO
    • Приложение 6. Класс Mail
    • Приложение 7. Класс MailMapper
    • Приложение 8. Класс MailService
    • Приложение 9. Класс AnalisysStore
    • Приложение 10. Класс MainStore
    • Приложение 11. TreeUtilsTest
    • Приложение 12. Диаграмма классов

Статистика использования

stat Количество обращений: 23
За последние 30 дней: 0
Подробная статистика