Table | Card | RUSMARC | |
Annotation
Статья посвящена экспериментальному исследованию методов автоматического выделения ключевых выражений с использованием экспертных оценок. Целью работы является проверка гипотез о распределении ключевых выражений в документе, о дифференциации ключевых выражений с точки зрения используемых алгоритмов их выделения и стилистической принадлежности текстов. Эксперименты по автоматическому выделению ключевых выражений проводятся с помощью девяти алгоритмов различных типов: статистические (Log-Likelihood, TF-IDF, Хи-квадрат), гибридные, или лингвостатистические (RAKE, YAKE, PullEnti, Topia), структурные, или графовые (TextRank), с использованием машинного обучения (KeyBERT). В ходе исследования был подготовлен смешанный корпус объемом около 1 млн с/у, включающий в себя 50 публицистических текстов (новостные сообщения с заголовками), 50 научных текстов (статьи по компьютерной лингвистике с заголовками, аннотациями и задаваемыми вручную наборами ключевых выражений), 50 художественных текстов (главы из прозаических произведений, снабженные авторским описанием содержания). Для проверки гипотезы о пространственно-позиционных и стилистически детерминированных характеристиках ключевых выражений были проведены три серии экспериментов, в результате которых были сопоставлены эталонные ключевые выражения, выделенные экспертами из первого сегмента текстов, и ключевые выражения, извлеченные из второго сегмента автоматическими методами. Количественная оценка совпадений экспертной и автоматической разметки позволила подтвердить гипотезу о различной концентрации ключевых выражений в сравниваемых сегментах текста. Исследование лексико-грамматических и семантических особенностей выделенных ключевых выражений выявило те их признаки, которые определяются стилистическими особенностями текстов. Результаты исследования позволяют усовершенствовать процедуры семантической компрессии, производимые с применением различных методов автоматического выделения ключевых выражений.
The paper describes the experimental study of automatic keyphrase extraction techniques using expert assessments. The purpose of the study is to confirm the hypotheses on the location of keyphrases within a document and on the differentiation of keyphrases as regards applied algorithms and text styles. Experiments on automatic selection of keyphrases are carried out using nine algorithms of various types, including statistical (Log-Likelihood, TF-IDF, Chi-square), hybrid, also called linguostatistical (RAKE, YAKE, PullEnti, Topia), structural, also called graph-based (TextRank), and machine learning (KeyBERT). In the course of the study a mixed corpus was prepared of about 1 million tokens in size, including 50 social media texts (news reports with headlines), 50 scientific texts (articles on computational linguistics with titles, abstracts and manually specified sets of key expressions), 50 literary texts (chapters from prose works, provided with the author’s description of the content). Evaluation procedure implies comparison of keyphrases selected by experts from the first segment of texts and key expressions automatically extracted from the second segment. A quantitative assessment of the matches between expert and automatic markup made it possible to confirm the hypothesis on a different concentration of keyphrases in text segments involved in comparison. The study of lexico-grammatical and semantic features of keyphrases allowed us to reveal features that are determined by text style. The results of the study may improve semantic compression procedures performed using the methods of automatic keyphrase extraction.
Included in
Usage statistics
Access count: 100
Last 30 days: 9 Detailed usage statistics |