Details

Title: Тематическое моделирование в задаче автоматической рубрикации новостных текстов // Terra Linguistica. – 2023. – С. 77-91
Creators: Тен Л. В.
Imprint: 2023
Collection: Общая коллекция
Subjects: Языкознание; Прикладное языкознание; новостные тексты; автоматическая рубрикация текстов; тематическое моделирование; интеллектуальный анализ текстов; статический анализ текстов; компьютерная лингвистика; тематические метки; news texts; automatic text categorization; mathematical modeling; text mining; static text analysis; computational linguistics; thematic tags
UDC: 81'33
LBC: 81.1
Document type: Article, report
File type: PDF
Language: Russian
DOI: 10.18721/JHSS.14207
Rights: Свободный доступ из сети Интернет (чтение, печать, копирование)
Record key: RU\SPSTU\edoc\71942

Allowed Actions: Read Download (365 Kb)

Group: Anonymous

Network: Internet

Annotation

Тематическое моделирование широко используется в рамках интеллектуального анализа текстов на естественном языке, в ходе которого посредством статического анализа текстов обнаруживается скрытая тематическая структура. В данной статье предлагается подход к автоматической рубрикации новостных статей с использованием методов тематического моделирования в сочетании с процедурой автоматического назначения меток тем. Тематическое моделирование осуществляется при помощи ряда алгоритмов на языке программирования Python, включая латентное размещение Дирихле (latent Dirichlet allocation, LDA), неотрицательное матричное разложение (non-negative matrix factorization, NMF) и генеративную модель битермов (biterm topic model, BTM). Для автоматического назначения меток тем применяется подход с использованием языковой модели ChatGPT. Оценка кандидатов в метки основана на результатах опроса респондентов. Проведенные эксперименты показывают, что предложенный алгоритм может служить эффективным средством в задаче автоматической рубрикации текстов. Полученные результаты представляют интерес для специалистов в области прикладной и компьютерной лингвистики, медиакоммуникаций и научной журналистики.

Topic modeling is a text mining method used for discovering underlying semantic structure in large collections of documents. In this paper, we propose a novel approach to automatic text categorization of news texts based on topic modeling techniques in combination with automatic topic label assignment. Topic modeling is performed by means of a series of algorithms including latent Diriсhlet allocation (LDA), non-negative matrix factorization (NMF), and biterm topic modeling (BTM). In addition, we adopt an approach using the ChatGPT language model in order to assign topic labels. Candidate labels are evaluated by means of human assessments. The experiments carried out within our project demonstrate that the proposed algorithm can serve as an effective tool in the task of automatic text categorization. The results obtained may be of interest to experts in the field of applied and computational linguistics, media communications, and science journalism.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
-> Internet All Read Print Download

Usage statistics

stat Access count: 58
Last 30 days: 9
Detailed usage statistics