Детальная информация

Название: Тематическое моделирование в задаче автоматической рубрикации новостных текстов // Terra Linguistica. – 2023. – С. 77-91
Авторы: Тен Л. В.
Выходные сведения: 2023
Коллекция: Общая коллекция
Тематика: Языкознание; Прикладное языкознание; новостные тексты; автоматическая рубрикация текстов; тематическое моделирование; интеллектуальный анализ текстов; статический анализ текстов; компьютерная лингвистика; тематические метки; news texts; automatic text categorization; mathematical modeling; text mining; static text analysis; computational linguistics; thematic tags
УДК: 81'33
ББК: 81.1
Тип документа: Статья, доклад
Тип файла: PDF
Язык: Русский
DOI: 10.18721/JHSS.14207
Права доступа: Свободный доступ из сети Интернет (чтение, печать, копирование)
Ключ записи: RU\SPSTU\edoc\71942

Разрешенные действия: Прочитать Загрузить (365 Кб)

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тематическое моделирование широко используется в рамках интеллектуального анализа текстов на естественном языке, в ходе которого посредством статического анализа текстов обнаруживается скрытая тематическая структура. В данной статье предлагается подход к автоматической рубрикации новостных статей с использованием методов тематического моделирования в сочетании с процедурой автоматического назначения меток тем. Тематическое моделирование осуществляется при помощи ряда алгоритмов на языке программирования Python, включая латентное размещение Дирихле (latent Dirichlet allocation, LDA), неотрицательное матричное разложение (non-negative matrix factorization, NMF) и генеративную модель битермов (biterm topic model, BTM). Для автоматического назначения меток тем применяется подход с использованием языковой модели ChatGPT. Оценка кандидатов в метки основана на результатах опроса респондентов. Проведенные эксперименты показывают, что предложенный алгоритм может служить эффективным средством в задаче автоматической рубрикации текстов. Полученные результаты представляют интерес для специалистов в области прикладной и компьютерной лингвистики, медиакоммуникаций и научной журналистики.

Topic modeling is a text mining method used for discovering underlying semantic structure in large collections of documents. In this paper, we propose a novel approach to automatic text categorization of news texts based on topic modeling techniques in combination with automatic topic label assignment. Topic modeling is performed by means of a series of algorithms including latent Diriсhlet allocation (LDA), non-negative matrix factorization (NMF), and biterm topic modeling (BTM). In addition, we adopt an approach using the ChatGPT language model in order to assign topic labels. Candidate labels are evaluated by means of human assessments. The experiments carried out within our project demonstrate that the proposed algorithm can serve as an effective tool in the task of automatic text categorization. The results obtained may be of interest to experts in the field of applied and computational linguistics, media communications, and science journalism.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
-> Интернет Все Прочитать Печать Загрузить

Статистика использования

stat Количество обращений: 62
За последние 30 дней: 10
Подробная статистика