Dataset preprocessing effects on Bi-LSTM-based concept tagging of text tokens

Babina, O. I.; Zinoveva, A. Yu.; Nerucheva, E. D.

Details

Title	Dataset preprocessing effects on Bi-LSTM-based concept tagging of text tokens // Terra Linguistica. – 2024. – Т. 15, № 3. — С. 109-123
Creators	Babina O. I.; Zinoveva A. Yu.; Nerucheva E. D.
Imprint	2024
Collection	Общая коллекция
Subjects	Языкознание; Прикладное языкознание; text tokens; bidirectional LSTM; conceptual token markup; dataset processing; semantic token markup; corpus of news texts (linguistics); terrorism; текстовые токены; двунаправленная LSTM; концептуальная разметка токенов; обработка набора данных; семантическая разметка токенов; корпус новостных текстов (языкознание); терроризм
UDC	81'33
LBC	81.1
Document type	Article, report
File type	PDF
Language	English
DOI	10.18721/JHSS.15310
Rights	Свободный доступ из сети Интернет (чтение, печать, копирование)
Record key	RU\SPSTU\edoc\74967
Record create date	12/28/2024

Allowed Actions

Read Download (0.7 Mb)

Group	Anonymous
Network	Internet

The paper considers the problem of natural language dataset preprocessing to improve the neural network model performance. The aim of the study is to find out the dataset preprocessing parameters that ensure higher performance of the model aimed at correlating textual input (a sequence of lexical units) with semantic, or conceptual, classes, i.e. concept tagging. Our methodology includes: a) modeling conceptual annotation of textual units, b) experimenting with textual dataset preprocessing options. The model that we propose takes as input tokens (in lowercase) representing words and multi-component lexical units (phrases), some of which are domain concept related. Since each token may refer to several conceptual classes, the concept tagging task is treated as a multi-label classification problem. In this research, we deal with the corpus of news reports on terrorist attacks in English. We experimented with preprocessing the corpus-based dataset by: a) lemmatizing tokens, b) removing stop words, and c) including sentence separators as individual tokens in the model vocabulary. The multi-label classification model used for the training experiments was a neural network that constructs sequences of lexical unit embeddings and feeds them into a bidirectional long short-term memory (Bi-LSTM) model. The experimental results show that the dataset preprocessed according to all the above-mentioned procedures demonstrated the highest micro-, macro- and weighted averaged F1-scores. The per-class F1-score on the test dataset reaches 88% for the class characterized by high frequency and low lexical variability in the training, validation, and test samples. The novelty of the paper lies in the proposed approach to content analysis of news reports on terrorist attacks using the proposed multi-label classification model. New results were obtained during experimenting with the differently preprocessed corpora of news reports on terrorist attacks. The proposed method may be used for content analysis of news reports specific to other subject areas.

В статье рассматривается проблема предварительной обработки набора данных на естественном языке для повышения качества работы нейросетевой модели. Цель исследования - выяснить параметры предварительной обработки набора текстовых данных, обеспечивающие более высокие показатели качества модели, направленной на соотнесение текстового ввода (последовательности лексических единиц) с семантическими (концептуальными) классами, т. е. на концептуальную разметку текста. Наша методология включает в себя: а) моделирование концептуального аннотирования текстовых единиц; б) экспериментирование с вариантами предварительной обработки набора текстовых данных. Специфика модели концептуального аннотирования, которую мы предлагаем, состоит в том, что она принимает на вход токены (в нижнем регистре), представляющие собой слова и многокомпонентные лексические единицы (словосочетания), некоторые из них аннотированы концептами предметной области. Поскольку каждый токен может относиться к нескольким концептуальным классам, задача разметки концептов ставится как задача классификации по нескольким меткам. В данном исследовании мы используем в качестве материала корпус новостных сообщений о террористических актах на английском языке. Мы экспериментировали с предварительной обработкой набора данных на основе корпуса путем: а) лемматизации токенов; б) удаления стоп-слов; в) включения разделителей предложений в качестве отдельных токенов в словарь модели. Модель классификации с несколькими метками, используемая для экспериментов с обучением, представляла собой нейронную сеть, которая строит последовательности эмбеддингов лексических единиц и передает их на обработку в последовательно расположенные двунаправленные слои долгой краткосрочной памяти (Bi-LSTM-слои). Результаты экспериментов показывают, что набор данных, предварительно обработанный в соответствии со всеми вышеупомянутыми процедурами, продемонстрировал самые высокие микро-, макро- и средневзвешенные значения показателя F1. Поклассовая оценка F1 достигает на тестовом наборе данных значения 88% для класса, характеризующегося большой употребительностью и низкой лексической вариативностью в обучающей, проверочной и тестовой выборках. Новизна работы заключается в предложенном подходе к контент-анализу новостных сообщений о терактах с использованием предложенной модели классификации по нескольким меткам. Новые результаты были получены в ходе экспериментов с различными предварительно обработанными корпусами новостей о терактах. Предложенная методика может быть масштабирована для проведения контент-анализа новостных сообщений, специфичных для других предметных областей.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	All

Terra Linguistica. — Санкт-Петербург: СПбПУ, 2022-. — Электрон. журнал. — Периодичность: 4 раза в год. — Свободный доступ из сети Интернет (чтение, печать, копирование).

Terra Linguistica. — Санкт-Петербург: СПбПУ, 2022-. Т. 15, № 3, 2024. — 1 файл (3,57 Мб). — Свободный доступ из сети Интернет (чтение, печать, копирование). — <URL:http://elib.spbstu.ru/dl/2/j24-443.pdf>.

Access count: 80
Last 30 days: 26

Detailed usage statistics