Ключевые выражения в русскоязычных научно-популярных текстах: сравнение восприятия устной и письменной речи с результатами автоматического анализа

Гусева, Д. Д.; Митрофанова, О. А.

Вход в систему

Детальная информация

	Таблица	Карточка	RUSMARC

Название:	Ключевые выражения в русскоязычных научно-популярных текстах: сравнение восприятия устной и письменной речи с результатами автоматического анализа // Terra Linguistica. – 2024. – С. 20-35
Авторы:	Гусева Д. Д.; Митрофанова О. А.
Выходные сведения:	2024
Коллекция:	Общая коллекция
Тематика:	Языкознание; Общее языкознание; научно-популярные тексты; русскоязычные тексты; ключевые выражения; письменная речь; устная речь; автоматический анализ; сравнение восприятия речей; popular science texts; Russian-language texts; key expressions; written speech; spoken speech; automatic analysis; speech perception comparison
УДК:	81'1
ББК:	81
Тип документа:	Статья, доклад
Тип файла:	PDF
Язык:	Русский
DOI:	10.18721/JHSS.15102
Права доступа:	Свободный доступ из сети Интернет (чтение, печать, копирование)
Дополнительно:	Новинка
Ключ записи:	RU\SPSTU\edoc\72962

Разрешенные действия: Прочитать Загрузить (0,4 Мб)

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Процесс передачи информации может осуществляться посредством устной и письменной речи. Механизмы восприятия содержания письменных и устных текстов проявляются на разных уровнях компонентов коммуникации и понимания текста, включая уровень выделения ключевых выражений. Ключевые выражения представляют основополагающую информацию о тексте в компактной форме, способствуя структурированию текстов, их классификации и быстрой оценке содержимого. Цель данного исследования заключается в анализе различий, возникающих при восприятии одного и того же текста, представленного в письменной и устной формах. В рамках исследования были рассмотрены как письменные, так и устные русскоязычные тексты. Исследование включало в себя выделение ключевых выражений как вручную, так и автоматическими методами. Этот подход был выбран с целью выявления алгоритмов, способных приближенно воспроизводить механизмы выбора ключевых выражений, используемых носителями языка. Эксперименты были проведены на материале аудиозаписей и транскриптов выступлений русскоязычных лекторов проекта "Постнаука". Для автоматического выделения ключевых фраз в письменных текстах были применены следующие алгоритмы: статистические (Log-Likelihood, T-test, PMI test, Chi-square), гибридные (RAKE, RuTermExtract, SpaCy), с использованием машинного обучения (KeyBERT) и ChatGPT. Ручная аннотация была получена в ходе перцептивных экспериментов с привлечением русскоязычных участников. Дополнительно было проанализировано распределение ключевых выражений в структуре текстов. Результаты, полученные с применением автоматических алгоритмов выделения ключевых выражений, и результаты перцептивных экспериментов демонстрируют низкий уровень соответствия между выделенными ключевыми выражениями. Были исследованы возможности различных автоматических алгоритмов извлечения ключевых выражений и установлены ограничения при их применении в анализе письменных и устных текстов. Наши наблюдения указывают на то, что для создания эффективных методов выделения ключевых выражений необходимо учитывать типологические характеристики естественных языков, представленных в анализируемых текстах, предметные области текстов, а также наличие необходимых лингвистических и программных ресурсов. Также были получены свидетельства в пользу того, что выбор метода выделения ключевых выражений должен основываться на критериях, связанных не только с устойчивостью и частотностью ключевых выражений, но и с их восприятием.

The process of transmitting information can be performed through oral and written speech. The mechanisms of perceiving written and spoken texts manifest themselves at different levels within the components of communication and comprehension of the text, including the level of keyphrases. Keyphrases provide essential information about a text in a compressed form, contributing to the structuring of texts, their classification and rapid assessment of the contents. The aim of this study is to analyze the differences that arise in perceiving the same text presented in written and oral forms. To accomplish this, we have examined both written and oral texts in Russian. The research involved the extraction of keyphrases both manually and automatically. This approach was chosen to determine algorithms that can approximate the mechanisms used by native speakers in selecting keyphrases. Experiments were performed on a dataset containing transcripts and audio recordings of lectures by Russian-speaking participants of the project “Postnauka”. The following algorithms were used for automatic keyphrase extraction from written texts: statistical (Log-Likelihood, T-test, PMI test, Chi-square), hybrid linguostatistical (RAKE, RuTermExtract, SpaCy), machine learning-based method (KeyBERT), and ChatGPT. Manual annotation was obtained through perceptual experiments involving Russian-speaking participants. Additionally, keyphrase distribution in the text structure was analyzed. The results obtained during the research on automatic processing and the results of perceptual experiments demonstrate a low level of agreement between extracted keyphrases. The study investigated the capabilities of various automatic extraction algorithms for keyphrases, as well as their limitations when used in the analysis of written and oral texts.Our observations suggest that in order to develop effective techniques for selecting keyphrases, it is essential to consider the typological features of the natural languages represented in the analyzed texts, the subject areas of the texts and the availability of appropriate linguistic and software tools. Additionally, there is evidence that the choice of a method to extract keyphrases should be based not only on criteria related to the frequency and stability of the keyphrases, but also to their perception.

Права на использование объекта хранения

	Место доступа		Группа пользователей		Действие
	Локальная сеть ИБК СПбПУ		Все
	Интернет		Все

Входит в состав

Terra Linguistica. — Санкт-Петербург: СПбПУ, 2022-. — Электрон. журнал. — Периодичность: 4 раза в год. — Свободный доступ из сети Интернет (чтение, печать, копирование).

Terra Linguistica. — Санкт-Петербург: СПбПУ, 2022-. Т. 15, № 1, 2024. — 1 файл (3,5 Мб). — Свободный доступ из сети Интернет (чтение, печать, копирование). — <URL:http://elib.spbstu.ru/dl/2/j24-158.pdf>.

Статистика использования

Количество обращений: 45
За последние 30 дней: 26
Подробная статистика