Details

Title: Поиск сходств в тексте электронных писем на основе графовых узорных структур: выпускная квалификационная работа магистра: направление 09.04.03 «Прикладная информатика» ; образовательная программа 09.04.03_04 «Прикладная информатика в области информационных ресурсов»
Creators: Рябчук Егор Валерьевич
Scientific adviser: Щукин Александр Валентинович
Other creators: Пархоменко Владимир Андреевич
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Imprint: Санкт-Петербург, 2020
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: синтаксические деревья; поиск сходств; java; postreSQL; javascript; syntax trees; similarity search
Document type: Master graduation qualification work
File type: PDF
Language: Russian
Speciality code (FGOS): 09.04.03
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
Links: Отзыв руководителя; Рецензия; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2020/vr/vr20-1772
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В данной работе описывается решение задачи поиска сходств в текстах электронных писем на основе синтаксических деревьев с помощью Gmail API. Даны общие математические определения теории решёток и детерминированы шаги алгоритмов построения полурешётки узорных концептов. Проведен анализ систем-прототипов, выявлены их сильные и слабые стороны. Программно реализованы алгоритмы Norris, CloseByOne, Niagara. Определена клиент-серверная архитектура приложения с взаимодействием с базой данных, для кеширования информации, с целью ускорения работы алгоритмов. Разработано кроссплатформенное программное обеспечение с графическим интерфейсом для поиска сходств в тексте электронных писем на базе реализованных алгоритмов. Реализована возможность классификации на базе синтаксических деревьев. Программное обеспечение было протестировано и сопоставлено с аналогичными системами. Даны рекомендации по улучшению качества итогового решения. Результаты исследований в дальнейшем можно использовать для классификации писем на базе почтового сервиса Gmail.

This paper describes the solution to the problem of finding similarities in the texts of emails based on syntax trees using the Gmail API. General mathematical definitions of lattice theory are given and the steps of algorithms for constructing semilattices of patterned concepts are determined. The analysis of prototype systems is carried out, their strengths and weaknesses are revealed. Software implemented algorithms Norris, CloseByOne, Niagara. The client-server architecture of the application with the interaction with the database is determined for caching information in order to accelerate the operation of algorithms. Cross-platform software with a graphical interface for searching for similarities in the text of emails based on implemented algorithms has been developed. The possibility of classification based on syntax trees has been implemented. The software has been tested and compared with similar systems. Recommendations are given on improving the quality of the final decision. Further research results can be used to classify letters based on the Gmail mail service.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
Internet Authorized users (not from SPbPU)
-> Internet Anonymous

Table of Contents

  • Поиск сходств в тексте электронных писем на основе графовых узорных структур
    • Введение
    • 1. Исследование предметной области анализа текстов
    • 2. Анализ алгоритмов поиска сходств текстов на основе узорных структур
    • 3. Разработка программного обеспечения
    • 4. Тестирование и апробация
    • Заключение
    • Список использованных источников
    • Приложение 1. Класс CloseByOne
    • Приложение 2. Класс Norris
    • Приложение 3. Класс MailController
    • Приложение 4. Класс EditViewDTO
    • Приложение 5. Класс TableViewDTO
    • Приложение 6. Класс Mail
    • Приложение 7. Класс MailMapper
    • Приложение 8. Класс MailService
    • Приложение 9. Класс AnalisysStore
    • Приложение 10. Класс MainStore
    • Приложение 11. TreeUtilsTest
    • Приложение 12. Диаграмма классов

Usage statistics

stat Access count: 9
Last 30 days: 0
Detailed usage statistics