Детальная информация

Название Text augmentation method via paraphrastic concept embeddings: A case study on Azerbaijani language // Информатика, телекоммуникации и управление. – 2025. – Т. 18, № 3. — С. 46-57
Авторы Aghayev A. F. ; Molodyakov S. A. ; Ustinov S. M.
Выходные сведения 2025
Коллекция Общая коллекция
Тематика Радиоэлектроника ; Искусственный интеллект. Экспертные системы ; data augmentation ; vector representations (linguistics) ; paraphrased vector representations ; azerbaijani language ; natural language processing ; low-resource languages ; mathematical modeling ; аугментация данных ; векторные представления (лингвистика) ; парафразные векторные представления ; азербайджанский язык ; обработка естественного языка ; малоресурсные языки ; математическое моделирование
УДК 004.8
ББК 32.813
Тип документа Статья, доклад
Язык Английский
DOI 10.18721/JCSTCS.18304
Права доступа Свободный доступ из сети Интернет (чтение, печать, копирование)
Дополнительно Новинка
Ключ записи RU\SPSTU\edoc\78213
Дата создания записи 05.02.2026

Разрешенные действия

Прочитать Загрузить (0,4 Мб)

Группа Анонимные пользователи
Сеть Интернет

A novel data augmentation method - paraphrastic concept embeddings - is presented, designed to address the problem of insufficient labeled data in Azerbaijani natural language processing (NLP). This method generates high-quality paraphrastic sentences by encoding semantic concepts into a continuous vector space and decoding them into diverse textual realizations. This approach is the first to utilize concept-level paraphrasing for the Azerbaijani language, yielding substantial improvements in applied tasks. The theoretical foundations of the method, including its mathematical formulation and implementation within NLP pipelines, are proposed. In text classification experiments, the method outperforms standard augmentation techniques in accuracy and robustness. The method does not require external lexical resources, making it especially useful for low-resource languages. It scales for various types of tasks, including sentiment analysis, entity extraction and text generation. It is concluded that the proposed approach significantly advances the level of Azerbaijani NLP and has the potential to be extended to other low-resource languages.

Представлен новый метод аугментации данных - парафразные концептуальные векторные представления, - предназначенный для решения проблемы нехватки размеченных данных в азербайджанской обработке естественного языка. Метод генерирует качественные парафразные предложения, кодируя семантические концепты в непрерывное векторное пространство и декодируя их в разнообразные текстовые формы. Это первый подход, использующий концептуальное парафразирование для азербайджанского языка, обеспечивая заметные улучшения в прикладных задачах. Предложены теоретические основы метода, его математическая модель и интеграция в конвейеры обработки данных. В экспериментах по классификации текста метод превосходит стандартные техники аугментации по точности и устойчивости. Метод не требует внешних лексических ресурсов, что делает его особенно полезным для малоресурсных языков. Метод масштабируется для различных типов задач, включая анализ тональности, извлечение сущностей и генерацию текста. Делается вывод, что предложенный подход существенно продвигает уровень обработки естественного азербайджанского языка и имеет потенциал расширения на другие малоресурсные языки.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать Загрузить
Интернет Все

Количество обращений: 19 
За последние 30 дней: 19

Подробная статистика