Детальная информация

Название: Проектирование и разработка программной системы поиска дубликатов в русскоязычных текстах: выпускная квалификационная работа бакалавра: направление 02.03.03 «Математическое обеспечение и администрирование информационных систем» ; образовательная программа 02.03.03_01 «Информационные системы и базы данных»
Авторы: Разуваев Данил
Научный руководитель: Туральчук Константин Анатольевич
Другие авторы: Пархоменко Владимир Андреевич
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения: Санкт-Петербург, 2021
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: алгоритм шинглов; нечеткие дубликаты; обнаружение плагиата; shingles algorithm; near-duplicates; plagiarism detection
Тип документа: Выпускная квалификационная работа бакалавра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Бакалавриат
Код специальности ФГОС: 02.03.03
Группа специальностей ФГОС: 020000 - Компьютерные и информационные науки
Ссылки: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-2361
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Ключ записи: ru\spstu\vkr\14200

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

В данной работе исследованы способы обфускации текстов и методы борьбы с ними, рассмотрены основные алгоритмы поиска дубликатов. На языке программирования С Sharp была разработана клиент-серверная программная система на основе алгоритма шинглов для поиска похожих документов. Система позволяет находить заимствования при незначительных модификациях текста, таких как замена символов на графически похожие, замена отдельных слов на синонимы, разбиение и объединение предложений источника, изменение склонений/родов отдельных слов. Также она позволяет визуализировать найденные заимствования и может быть применена для проверки оригинальности студенческих работ (при предположении, что студенты заимствуют тексты друг у друга). На разработанной системе были проведены вычислительные эксперименты при различной длине шингла и при отключенных модулях нормализации. Были выявлены зависимости точности и полноты от длины шингла.

In this work, methods of obfuscation of texts and methods of combating with them are investigated, the main algorithms for finding duplicates are considered. In the C Sharp programming language, a client-server software system was developed based on the shingle algorithm to searching for similar documents. The system allows you to find borrowings with minor text modifications, such as replacing symbols with graphically similar ones, replacing individual words with synonyms, splitting and combining source sentences, changing declensions / genders of individual words. It also allows you to visualize found borrowings and can be used to check the originality of student works (assuming that students borrow texts from each other). On the developed system, computational experiments were carried out with different shingle lengths and with disabled normalization modules. Dependences of precision and recall on the length of the shingle were revealed.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • Проектирование и разработка программной системы поиска дубликатов в русскоязычных текстах
    • Введение
    • 1. Обфускация и нормализация текста
    • 2. Алгоритмы обнаружения дубликатов
    • 3. Системы обнаружения заимствований
    • 4. Реализация системы
    • 5. Тестирование и эксперименты
    • Заключение
    • Список использованных источников
    • Приложение 1. Полная UML-диаграмма классов
    • Приложение 2. Исходный код проекта DuplicatesShearchServer

Статистика использования

stat Количество обращений: 15
За последние 30 дней: 0
Подробная статистика