Таблица | Карточка | RUSMARC | |
Разрешенные действия: –
Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети
Группа: Анонимные пользователи Сеть: Интернет |
Аннотация
В данной работе исследованы способы обфускации текстов и методы борьбы с ними, рассмотрены основные алгоритмы поиска дубликатов. На языке программирования С Sharp была разработана клиент-серверная программная система на основе алгоритма шинглов для поиска похожих документов. Система позволяет находить заимствования при незначительных модификациях текста, таких как замена символов на графически похожие, замена отдельных слов на синонимы, разбиение и объединение предложений источника, изменение склонений/родов отдельных слов. Также она позволяет визуализировать найденные заимствования и может быть применена для проверки оригинальности студенческих работ (при предположении, что студенты заимствуют тексты друг у друга). На разработанной системе были проведены вычислительные эксперименты при различной длине шингла и при отключенных модулях нормализации. Были выявлены зависимости точности и полноты от длины шингла.
In this work, methods of obfuscation of texts and methods of combating with them are investigated, the main algorithms for finding duplicates are considered. In the C Sharp programming language, a client-server software system was developed based on the shingle algorithm to searching for similar documents. The system allows you to find borrowings with minor text modifications, such as replacing symbols with graphically similar ones, replacing individual words with synonyms, splitting and combining source sentences, changing declensions / genders of individual words. It also allows you to visualize found borrowings and can be used to check the originality of student works (assuming that students borrow texts from each other). On the developed system, computational experiments were carried out with different shingle lengths and with disabled normalization modules. Dependences of precision and recall on the length of the shingle were revealed.
Права на использование объекта хранения
Место доступа | Группа пользователей | Действие | ||||
---|---|---|---|---|---|---|
Локальная сеть ИБК СПбПУ | Все | |||||
Интернет | Авторизованные пользователи СПбПУ | |||||
Интернет | Анонимные пользователи |
Оглавление
- Проектирование и разработка программной системы поиска дубликатов в русскоязычных текстах
- Введение
- 1. Обфускация и нормализация текста
- 2. Алгоритмы обнаружения дубликатов
- 3. Системы обнаружения заимствований
- 4. Реализация системы
- 5. Тестирование и эксперименты
- Заключение
- Список использованных источников
- Приложение 1. Полная UML-диаграмма классов
- Приложение 2. Исходный код проекта DuplicatesShearchServer
Статистика использования
Количество обращений: 15
За последние 30 дней: 0 Подробная статистика |