Details

Title Эффективное обнаружение мошеннических ссылок с помощью маскирующегося под пользователя веб-скрапера: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения»
Creators Марашов Александр Сергеевич
Scientific adviser Малыхина Галина Федоровна
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint Санкт-Петербург, 2024
Collection Выпускные квалификационные работы; Общая коллекция
Subjects разделение трафика; веб-скрапер; обнаружение мошенников; маскировка скрапера; выборочная загрузка ресурсов; cloaking; web scraper; fraud detection; scraper disguise; selective resource loading
Document type Master graduation qualification work
File type PDF
Language Russian
Level of education Master
Speciality code (FGOS) 09.04.01
Speciality group (FGOS) 090000 - Информатика и вычислительная техника
DOI 10.18720/SPBPU/3/2024/vr/vr24-3918
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key ru\spstu\vkr\33137
Record create date 8/29/2024

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Работа посвящена исследованию методов разделения трафика на мошеннических сайтах и разработке методики для их обнаружения с помощью веб-скрапера, маскирующегося под пользователя. Задачи исследования: 1. Проведение обзора инструментов для построения веб-скрапера в контексте обнаружения сайтов с разделением трафика; 2. Разработка алгоритмов обнаружения сайтов с разделением трафика; 3. Разработка веб-скрапера для обнаружения сайтов с разделением трафика; 4. Тестирование разработанного сервиса и оценка его эффективности. Для маскировки веб-скрапера используется ротация IP-адресов, подмена HTTP-заголовков, эмуляция характеристик устройства через настройку JavaScript окружения браузера. Обнаружение сайтов с разделением трафика осуществляется путем отслеживания изменений в контенте с использованием перцептивного хэширования изображений. Для ускорения обработки и экономии трафика разработан алгоритм выборочной загрузки ресурсов. Тестирование проведено на размеченном наборе ссылок от компании «VK». Определены критерии качества веб-скрапера и параметры настройки системы. Веб-скрапер позволяет верно классифицировать 95% мошеннических сайтов и автоматически одобрить 75% легитимных ресурсов. Алгоритм выборочной загрузки ресурсов увеличивает пропускную способность сервиса на 25%.

This thesis focuses on investigating methods of cloaking on fraudulent websites and developing a methodology for detecting them using a web scraper disguised as a legitimate user. The research objectives are: 1. Reviewing tools for building a web scraper in the context of detecting cloaking websites; 2. Developing algorithms to detect cloaking websites; 3. Creating a web scraper to identify cloaking websites; 4. Testing the developed service and evaluating its effectiveness. To disguise the web scraper, techniques such as IP address rotation, HTTP header spoofing, and emulating device characteristics through browser JavaScript environment configuration are used. Detection of cloaking websites is achieved by monitoring content changes using perceptual hashing of images. To accelerate processing and conserve bandwidth, an algorithm for selective resource loading has been developed. Testing was conducted on a labeled set of links provided by company "VK". Quality criteria for the web scraper and system configuration parameters were determined. The resulting configuration of the web scraper allows for accurate classification of 95% of fraudulent websites and automatic approval of 75% of legitimate resources. The selective resource loading algorithm increases the service throughput by 25%.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 3 
Last 30 days: 3

Detailed usage statistics