Application of machine learning algorithms and neural networks for analyzing the influence of data type in hate speech detection

Mbele Ossiyi, L. P.; Drobintsev, P. D.; Ustinov, S. M.

Детальная информация

Название	Application of machine learning algorithms and neural networks for analyzing the influence of data type in hate speech detection // Информатика, телекоммуникации и управление. – 2025. – Т. 18, № 3. — С. 23-35
Авторы	Mbele Ossiyi L. P. ; Drobintsev P. D. ; Ustinov S. M.
Выходные сведения	2025
Коллекция	Общая коллекция
Тематика	Радиоэлектроника ; Искусственный интеллект. Экспертные системы ; neural networks ; machine learning ; hate speech detection ; synthetic dataset ; text tonality analysis ; emotion recognition in texts ; embeddings ; нейронные сети ; машинное обучение ; выявление ненавистнических высказываний ; синтетический набор данных ; анализ тональности текстов ; распознавание эмоций в текстах ; эмбеддинги
УДК	004.8
ББК	32.813
Тип документа	Статья, доклад
Язык	Английский
DOI	10.18721/JCSTCS.18302
Права доступа	Свободный доступ из сети Интернет (чтение, печать, копирование)
Дополнительно	Новинка
Ключ записи	RU\SPSTU\edoc\78211
Дата создания записи	05.02.2026

Разрешенные действия

Прочитать Загрузить (4,0 Мб)

Группа	Анонимные пользователи
Сеть	Интернет

At present, communication has reached an unprecedented level of activity thanks to online social platforms that have overcome geographical and linguistic barriers. However, the shift to online communication is accompanied by the spread of hate speech, which negatively affects the social environment of these platforms. In the field of natural language processing, research is being conducted to develop models for detecting and classifying hate speech, aimed at improving the safety and quality of the online environment. However, many of these studies are based on commonly used datasets that turn out to be unbalanced and insufficiently adapted to the new grammatical features of hate speech. This article presents a comparative study of the effectiveness of machine and deep learning algorithms in detecting hate speech based on a synthetic dataset. Three separate experiments were conducted using original and synthetically perturbated data. The findings indicate that employing a synthetic dataset enhances the representation of extremely negative or infrequently encountered communication scenarios, contributing to their more effective detection. Deep learning algorithms demonstrated superior performance in all experiments. The top-performing models in the first and second experiments, both using zero-shot learning, yielded accuracies of 52.04% and 62.13%, respectively. The last experiment revealed that the BiGRU + fastText architecture outperformed other models, achieving an accuracy of 72.68%.

В настоящее время общение достигло беспрецедентного уровня активности благодаря онлайн-социальным платформам, которые преодолели географические и языковые барьеры. Однако этот переход сопровождается распространением ненавистнических высказываний, которые негативно влияют на социальную среду этих платформ. В области обработки естественного языка ведутся исследования по разработке моделей для выявления и классификации ненавистнических высказываний, направленные на улучшение безопасности и качества онлайн-среды. Однако многие из этих исследований основаны на наборах данных, которые часто используются и оказываются несбалансированными и недостаточно адаптированными к новым грамматическим особенностям ненавистнических высказываний. В этой статье представлено сравнительное исследование эффективности алгоритмов машинного и глубокого обучения в выявлении ненавистнических высказываний на основе синтетического набора данных. Три отдельных эксперимента были проведены с использованием оригинальных и искусственно искаженных данных. Результаты показывают, что использование синтетического набора данных позволяет лучше представить крайне негативные или нечасто встречающиеся сценарии коммуникации, что способствует их более эффективному выявлению. Алгоритмы глубокого обучения продемонстрировали превосходную производительность во всех экспериментах. Лучшие модели в первом и втором экспериментах, основанные на "обучении без примеров", показали точность 52,04% и 62,13% соответственно. Последний эксперимент показал, что архитектура BiGRU + fastText превзошла другие модели, достигнув точности 72,68%.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Все

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. — Электрон. журнал. — Периодичность: 4 раза в год. — Свободный доступ из сети Интернет (чтение, печать, копирование). — Текст: электронный

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. Т. 18, № 3, 2025. — 1 файл (13,5 Мб). — Свободный доступ из сети Интернет (чтение, печать, копирование). — <URL:http://elib.spbstu.ru/dl/2/j26-69.pdf>.

Количество обращений: 16
За последние 30 дней: 16

Подробная статистика