Details

Title: Исследование влияния параметров морфологической сложности на трудность восприятия медиатекста с использованием методов статистического анализа данных // Terra Linguistica. – 2023. – С. 30-40
Creators: Евтушенко Т. Г.; Клочкова Е. С.; Лапутенко А. В.; Евтушенко Н. В.
Imprint: 2023
Collection: Общая коллекция
Subjects: Языкознание; Математическая лингвистика; медиатексты; трудность восприятия медиатекстов; статистический анализ данных (лингвистика); морфологическая сложность; параметры морфологической сложности; корреляционно-регрессионный анализ; понятность текстов; media texts; difficulty in perceiving media texts; statistical data analysis (linguistics); morphological complexity; morphological complexity parameters; correlation-regression analysis; clarity of texts
UDC: 81'32
LBC: 81.1
Document type: Article, report
File type: PDF
Language: Russian
DOI: 10.18721/JHSS.14104
Rights: Свободный доступ из сети Интернет (чтение, печать, копирование)
Record key: RU\SPSTU\edoc\70636

Allowed Actions: Read Download (284 Kb)

Group: Anonymous

Network: Internet

Annotation

Предлагаемая работа посвящена изучению одного из аспектов сложности, влияющих на восприятие медиатекста: параметров морфологической сложности, а также их взаимодействию с поверхностными характеристиками текста, такими как средняя длина предложения, средняя длина слова и т. п. В работе исследуется вопрос о связи количественных параметров (метрик) объективной сложности текста, которая обусловлена его языковыми характеристиками, со степенью трудности восприятия текста читателем. Для определения и подсчета метрик морфологической сложности использовался корпус из 1000 размеченных новостных текстов (общим объемом 140000 словоупотреблений) с веб-сайтов российских ВУЗов. Для каждого текста были подсчитаны следующие величины: доля слов различных частей речи, доля отдельных граммем, соотношение именности-глагольности, соотношение знаменательных и служебных частей речи, средняя длина предложения, средняя длина слова и т. д. Анализ морфологической сложности был дополнен результатами опроса представителей целевой аудитории веб-сайта ВУЗа (абитуриентов, студентов и аспирантов), которые оценили трудность 255 новостных текстов по пятибалльной шкале. Далее на основе собранных данных проводился корреляционно-регрессионный анализ для определения значимости анализируемых метрик морфологической сложности и степени их влияния на трудность восприятия текста. На основе анализа используемых полученных моделей линейной регрессии было установлено, что наиболее значимыми метриками морфологической сложности являются доля полных причастий, доля словоформ в родительном падеже, доля кратких прилагательных и доля числительных. Кроме того, проведенный анализ подтвердил вывод предыдущих исследований о значимости таких поверхностных метрик как средняя длина предложения и средняя длина словоформы. В результате анализа были предложены две формулы для расчета степени понятности новостного текста: 1) формула, основанная на трех метриках, которые чаще всего встречаются в моделях; 2) формула, основанная на модели с наиболее высокой точностью и учитывающая пять морфологических и поверхностных метрик.

The paper addresses one of the important aspects of text complexity, namely the dependency of text readability on a set of morphological and text surface metrics such as the average length of words, sentences, etc. The correlation between the objective text complexity which is specified by quantitative parameters of the linguistic features and the subjective text complexity, i. e. the difficulty of text comprehension as a psychological phenomenon, is analyzed. To assess the morphological text complexity we used an annotated dataset consisting of 1000 online news texts (140000 tokens) retrieved from the websites of Russian universities. For each text unit the ratio of each part-of-speech per token is measured. Online news texts of the dataset were also assessed by a target audience of the website, i. e. applicants, undergraduate and postgraduate students. As a result, the dataset was automatically annotated based on text linguistic features and human-labelled based on experts’ estimates of text readability on a 5-point scale. To assess the significance of morphological metrics and their influence on text readability, the correlation and regression analysis was carried out. To automatically classify a text as "easy-to-read" or not "easy-to-read", both single feature and compound models including more than one metric were constructed. In agreement with the prior research the most common metrics influencing text readability appear to be text surface characteristics. However, the proposed models also made it possible to establish the significance of morphological parameters, used both in single feature and compound models, such as the use of participles, nouns in the genitive case, adjectives and numerals, which should be taken into account in analyzing news text readability. Moreover, novel formulae for assessing readability were proposed based on the studied coefficients.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
-> Internet All Read Print Download

Usage statistics

stat Access count: 130
Last 30 days: 12
Detailed usage statistics