Details
Title | Dataset preprocessing effects on Bi-LSTM-based concept tagging of text tokens // Terra Linguistica. – 2024. – Т. 15, № 3. — С. 109-123 |
---|---|
Creators | Babina O. I.; Zinoveva A. Yu.; Nerucheva E. D. |
Imprint | 2024 |
Collection | Общая коллекция |
Subjects | Языкознание; Прикладное языкознание; text tokens; bidirectional LSTM; conceptual token markup; dataset processing; semantic token markup; corpus of news texts (linguistics); terrorism; текстовые токены; двунаправленная LSTM; концептуальная разметка токенов; обработка набора данных; семантическая разметка токенов; корпус новостных текстов (языкознание); терроризм |
UDC | 81'33 |
LBC | 81.1 |
Document type | Article, report |
File type | |
Language | English |
DOI | 10.18721/JHSS.15310 |
Rights | Свободный доступ из сети Интернет (чтение, печать, копирование) |
Record key | RU\SPSTU\edoc\74967 |
Record create date | 12/28/2024 |
The paper considers the problem of natural language dataset preprocessing to improve the neural network model performance. The aim of the study is to find out the dataset preprocessing parameters that ensure higher performance of the model aimed at correlating textual input (a sequence of lexical units) with semantic, or conceptual, classes, i.e. concept tagging. Our methodology includes: a) modeling conceptual annotation of textual units, b) experimenting with textual dataset preprocessing options. The model that we propose takes as input tokens (in lowercase) representing words and multi-component lexical units (phrases), some of which are domain concept related. Since each token may refer to several conceptual classes, the concept tagging task is treated as a multi-label classification problem. In this research, we deal with the corpus of news reports on terrorist attacks in English. We experimented with preprocessing the corpus-based dataset by: a) lemmatizing tokens, b) removing stop words, and c) including sentence separators as individual tokens in the model vocabulary. The multi-label classification model used for the training experiments was a neural network that constructs sequences of lexical unit embeddings and feeds them into a bidirectional long short-term memory (Bi-LSTM) model. The experimental results show that the dataset preprocessed according to all the above-mentioned procedures demonstrated the highest micro-, macro- and weighted averaged F1-scores. The per-class F1-score on the test dataset reaches 88% for the class characterized by high frequency and low lexical variability in the training, validation, and test samples. The novelty of the paper lies in the proposed approach to content analysis of news reports on terrorist attacks using the proposed multi-label classification model. New results were obtained during experimenting with the differently preprocessed corpora of news reports on terrorist attacks. The proposed method may be used for content analysis of news reports specific to other subject areas.
В статье рассматривается проблема предварительной обработки набора данных на естественном языке для повышения качества работы нейросетевой модели. Цель исследования - выяснить параметры предварительной обработки набора текстовых данных, обеспечивающие более высокие показатели качества модели, направленной на соотнесение текстового ввода (последовательности лексических единиц) с семантическими (концептуальными) классами, т. е. на концептуальную разметку текста. Наша методология включает в себя: а) моделирование концептуального аннотирования текстовых единиц; б) экспериментирование с вариантами предварительной обработки набора текстовых данных. Специфика модели концептуального аннотирования, которую мы предлагаем, состоит в том, что она принимает на вход токены (в нижнем регистре), представляющие собой слова и многокомпонентные лексические единицы (словосочетания), некоторые из них аннотированы концептами предметной области. Поскольку каждый токен может относиться к нескольким концептуальным классам, задача разметки концептов ставится как задача классификации по нескольким меткам. В данном исследовании мы используем в качестве материала корпус новостных сообщений о террористических актах на английском языке. Мы экспериментировали с предварительной обработкой набора данных на основе корпуса путем: а) лемматизации токенов; б) удаления стоп-слов; в) включения разделителей предложений в качестве отдельных токенов в словарь модели. Модель классификации с несколькими метками, используемая для экспериментов с обучением, представляла собой нейронную сеть, которая строит последовательности эмбеддингов лексических единиц и передает их на обработку в последовательно расположенные двунаправленные слои долгой краткосрочной памяти (Bi-LSTM-слои). Результаты экспериментов показывают, что набор данных, предварительно обработанный в соответствии со всеми вышеупомянутыми процедурами, продемонстрировал самые высокие микро-, макро- и средневзвешенные значения показателя F1. Поклассовая оценка F1 достигает на тестовом наборе данных значения 88% для класса, характеризующегося большой употребительностью и низкой лексической вариативностью в обучающей, проверочной и тестовой выборках. Новизна работы заключается в предложенном подходе к контент-анализу новостных сообщений о терактах с использованием предложенной модели классификации по нескольким меткам. Новые результаты были получены в ходе экспериментов с различными предварительно обработанными корпусами новостей о терактах. Предложенная методика может быть масштабирована для проведения контент-анализа новостных сообщений, специфичных для других предметных областей.
Access count: 80
Last 30 days: 26