Детальная информация

Название Эффективное обнаружение мошеннических ссылок с помощью маскирующегося под пользователя веб-скрапера: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»
Авторы Марашов Александр Сергеевич
Научный руководитель Малыхина Галина Федоровна
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Выходные сведения Санкт-Петербург, 2024
Коллекция Выпускные квалификационные работы; Общая коллекция
Тематика разделение трафика; веб-скрапер; обнаружение мошенников; маскировка скрапера; выборочная загрузка ресурсов; cloaking; web scraper; fraud detection; scraper disguise; selective resource loading
Тип документа Выпускная квалификационная работа магистра
Тип файла PDF
Язык Русский
Уровень высшего образования Магистратура
Код специальности ФГОС 09.04.01
Группа специальностей ФГОС 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2024/vr/vr24-3918
Права доступа Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\33137
Дата создания записи 29.08.2024

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Работа посвящена исследованию методов разделения трафика на мошеннических сайтах и разработке методики для их обнаружения с помощью веб-скрапера, маскирующегося под пользователя. Задачи исследования: 1. Проведение обзора инструментов для построения веб-скрапера в контексте обнаружения сайтов с разделением трафика; 2. Разработка алгоритмов обнаружения сайтов с разделением трафика; 3. Разработка веб-скрапера для обнаружения сайтов с разделением трафика; 4. Тестирование разработанного сервиса и оценка его эффективности. Для маскировки веб-скрапера используется ротация IP-адресов, подмена HTTP-заголовков, эмуляция характеристик устройства через настройку JavaScript окружения браузера. Обнаружение сайтов с разделением трафика осуществляется путем отслеживания изменений в контенте с использованием перцептивного хэширования изображений. Для ускорения обработки и экономии трафика разработан алгоритм выборочной загрузки ресурсов. Тестирование проведено на размеченном наборе ссылок от компании «VK». Определены критерии качества веб-скрапера и параметры настройки системы. Веб-скрапер позволяет верно классифицировать 95% мошеннических сайтов и автоматически одобрить 75% легитимных ресурсов. Алгоритм выборочной загрузки ресурсов увеличивает пропускную способность сервиса на 25%.

This thesis focuses on investigating methods of cloaking on fraudulent websites and developing a methodology for detecting them using a web scraper disguised as a legitimate user. The research objectives are: 1. Reviewing tools for building a web scraper in the context of detecting cloaking websites; 2. Developing algorithms to detect cloaking websites; 3. Creating a web scraper to identify cloaking websites; 4. Testing the developed service and evaluating its effectiveness. To disguise the web scraper, techniques such as IP address rotation, HTTP header spoofing, and emulating device characteristics through browser JavaScript environment configuration are used. Detection of cloaking websites is achieved by monitoring content changes using perceptual hashing of images. To accelerate processing and conserve bandwidth, an algorithm for selective resource loading has been developed. Testing was conducted on a labeled set of links provided by company "VK". Quality criteria for the web scraper and system configuration parameters were determined. The resulting configuration of the web scraper allows for accurate classification of 95% of fraudulent websites and automatic approval of 75% of legitimate resources. The selective resource loading algorithm increases the service throughput by 25%.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ
Прочитать Печать Загрузить
Интернет Анонимные пользователи

Количество обращений: 3 
За последние 30 дней: 3

Подробная статистика