Details
Title | Эффективное обнаружение мошеннических ссылок с помощью маскирующегося под пользователя веб-скрапера: выпускная квалификационная работа магистра: направление 09.04.01 «Информатика и вычислительная техника» ; образовательная программа 09.04.01_15 «Технологии проектирования системного и прикладного программного обеспечения» |
---|---|
Creators | Марашов Александр Сергеевич |
Scientific adviser | Малыхина Галина Федоровна |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности |
Imprint | Санкт-Петербург, 2024 |
Collection | Выпускные квалификационные работы; Общая коллекция |
Subjects | разделение трафика; веб-скрапер; обнаружение мошенников; маскировка скрапера; выборочная загрузка ресурсов; cloaking; web scraper; fraud detection; scraper disguise; selective resource loading |
Document type | Master graduation qualification work |
File type | |
Language | Russian |
Level of education | Master |
Speciality code (FGOS) | 09.04.01 |
Speciality group (FGOS) | 090000 - Информатика и вычислительная техника |
DOI | 10.18720/SPBPU/3/2024/vr/vr24-3918 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Additionally | New arrival |
Record key | ru\spstu\vkr\33137 |
Record create date | 8/29/2024 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Работа посвящена исследованию методов разделения трафика на мошеннических сайтах и разработке методики для их обнаружения с помощью веб-скрапера, маскирующегося под пользователя. Задачи исследования: 1. Проведение обзора инструментов для построения веб-скрапера в контексте обнаружения сайтов с разделением трафика; 2. Разработка алгоритмов обнаружения сайтов с разделением трафика; 3. Разработка веб-скрапера для обнаружения сайтов с разделением трафика; 4. Тестирование разработанного сервиса и оценка его эффективности. Для маскировки веб-скрапера используется ротация IP-адресов, подмена HTTP-заголовков, эмуляция характеристик устройства через настройку JavaScript окружения браузера. Обнаружение сайтов с разделением трафика осуществляется путем отслеживания изменений в контенте с использованием перцептивного хэширования изображений. Для ускорения обработки и экономии трафика разработан алгоритм выборочной загрузки ресурсов. Тестирование проведено на размеченном наборе ссылок от компании «VK». Определены критерии качества веб-скрапера и параметры настройки системы. Веб-скрапер позволяет верно классифицировать 95% мошеннических сайтов и автоматически одобрить 75% легитимных ресурсов. Алгоритм выборочной загрузки ресурсов увеличивает пропускную способность сервиса на 25%.
This thesis focuses on investigating methods of cloaking on fraudulent websites and developing a methodology for detecting them using a web scraper disguised as a legitimate user. The research objectives are: 1. Reviewing tools for building a web scraper in the context of detecting cloaking websites; 2. Developing algorithms to detect cloaking websites; 3. Creating a web scraper to identify cloaking websites; 4. Testing the developed service and evaluating its effectiveness. To disguise the web scraper, techniques such as IP address rotation, HTTP header spoofing, and emulating device characteristics through browser JavaScript environment configuration are used. Detection of cloaking websites is achieved by monitoring content changes using perceptual hashing of images. To accelerate processing and conserve bandwidth, an algorithm for selective resource loading has been developed. Testing was conducted on a labeled set of links provided by company "VK". Quality criteria for the web scraper and system configuration parameters were determined. The resulting configuration of the web scraper allows for accurate classification of 95% of fraudulent websites and automatic approval of 75% of legitimate resources. The selective resource loading algorithm increases the service throughput by 25%.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 3
Last 30 days: 3