Эксперименты по автоматическому выделению ключевых выражений в стилистически разнородных корпусах русскоязычных текстов

Митрофанова, О. А.; Гаврилик, Д. А.

Details

	Table	Card	RUSMARC

Title:	Эксперименты по автоматическому выделению ключевых выражений в стилистически разнородных корпусах русскоязычных текстов // Terra Linguistica. – 2022. – С. 22-40
Creators:	Митрофанова О. А.; Гаврилик Д. А.
Imprint:	2022
Collection:	Общая коллекция
Subjects:	Языкознание; Математическая лингвистика; Прикладное языкознание; русскоязычные тексты; стилистически разнородные тексты; ключевые выражения текстов; автоматическое выделение ключевых выражений; семантическая компрессия; экспертная разметка текстов; функциональные стили (языкознание); russian-language texts; key expressions of texts; automatic selection of key expressions; semantic compression; expert text markup; functional styles (linguistics); stylistically heterogeneous texts
UDC:	81'32; 81'33
LBC:	81.1
Document type:	Article, report
File type:	PDF
Language:	Russian
DOI:	10.18721/JHSS.13402
Rights:	Свободный доступ из сети Интернет (чтение, печать, копирование)
Record key:	RU\SPSTU\edoc\70618

Allowed Actions: Read Download (0.5 Mb)

Group: Anonymous

Network: Internet

Annotation

Статья посвящена экспериментальному исследованию методов автоматического выделения ключевых выражений с использованием экспертных оценок. Целью работы является проверка гипотез о распределении ключевых выражений в документе, о дифференциации ключевых выражений с точки зрения используемых алгоритмов их выделения и стилистической принадлежности текстов. Эксперименты по автоматическому выделению ключевых выражений проводятся с помощью девяти алгоритмов различных типов: статистические (Log-Likelihood, TF-IDF, Хи-квадрат), гибридные, или лингвостатистические (RAKE, YAKE, PullEnti, Topia), структурные, или графовые (TextRank), с использованием машинного обучения (KeyBERT). В ходе исследования был подготовлен смешанный корпус объемом около 1 млн с/у, включающий в себя 50 публицистических текстов (новостные сообщения с заголовками), 50 научных текстов (статьи по компьютерной лингвистике с заголовками, аннотациями и задаваемыми вручную наборами ключевых выражений), 50 художественных текстов (главы из прозаических произведений, снабженные авторским описанием содержания). Для проверки гипотезы о пространственно-позиционных и стилистически детерминированных характеристиках ключевых выражений были проведены три серии экспериментов, в результате которых были сопоставлены эталонные ключевые выражения, выделенные экспертами из первого сегмента текстов, и ключевые выражения, извлеченные из второго сегмента автоматическими методами. Количественная оценка совпадений экспертной и автоматической разметки позволила подтвердить гипотезу о различной концентрации ключевых выражений в сравниваемых сегментах текста. Исследование лексико-грамматических и семантических особенностей выделенных ключевых выражений выявило те их признаки, которые определяются стилистическими особенностями текстов. Результаты исследования позволяют усовершенствовать процедуры семантической компрессии, производимые с применением различных методов автоматического выделения ключевых выражений.

The paper describes the experimental study of automatic keyphrase extraction techniques using expert assessments. The purpose of the study is to confirm the hypotheses on the location of keyphrases within a document and on the differentiation of keyphrases as regards applied algorithms and text styles. Experiments on automatic selection of keyphrases are carried out using nine algorithms of various types, including statistical (Log-Likelihood, TF-IDF, Chi-square), hybrid, also called linguostatistical (RAKE, YAKE, PullEnti, Topia), structural, also called graph-based (TextRank), and machine learning (KeyBERT). In the course of the study a mixed corpus was prepared of about 1 million tokens in size, including 50 social media texts (news reports with headlines), 50 scientific texts (articles on computational linguistics with titles, abstracts and manually specified sets of key expressions), 50 literary texts (chapters from prose works, provided with the author’s description of the content). Evaluation procedure implies comparison of keyphrases selected by experts from the first segment of texts and key expressions automatically extracted from the second segment. A quantitative assessment of the matches between expert and automatic markup made it possible to confirm the hypothesis on a different concentration of keyphrases in text segments involved in comparison. The study of lexico-grammatical and semantic features of keyphrases allowed us to reveal features that are determined by text style. The results of the study may improve semantic compression procedures performed using the methods of automatic keyphrase extraction.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		All

Included in

Terra Linguistica. — Санкт-Петербург: СПбПУ, 2022-. — Электрон. журнал. — Периодичность: 4 раза в год. — Свободный доступ из сети Интернет (чтение, печать, копирование).

Terra Linguistica. — Санкт-Петербург: СПбПУ, 2022-. Т. 13, № 4, 2022. — 1 файл (3,07 Мб). — Свободный доступ из сети Интернет (чтение, печать, копирование). — <URL:http://elib.spbstu.ru/dl/2/j23-156.pdf>.

Usage statistics

Access count: 100
Last 30 days: 9
Detailed usage statistics