Details

Title: Статистические методы в лексикографических исследованиях: представление частотной лексики // Terra Linguistica. – 2023. – С. 80-93
Creators: Хохлова М. В.
Imprint: 2023
Collection: Общая коллекция
Subjects: Вычислительная техника; Манипулирование данными; Языкознание; Лексикология; статистическая лексикография; лексикографические исследования; частотная лексика; статистические метрики; частотные словари; устойчивые словосочетания; базы данных; statistical lexicography; databases; lexicographic research; statistical metrics; text corpora; frequency dictionaries; stable phrases
UDC: 004.62; 81'37
LBC: 32.973-018.2; 81.03
Document type: Article, report
File type: PDF
Language: Russian
DOI: 10.18721/JHSS.14307
Rights: Свободный доступ из сети Интернет (чтение, печать, копирование)
Record key: RU\SPSTU\edoc\72639

Allowed Actions: Read Download (359 Kb)

Group: Anonymous

Network: Internet

Annotation

Статистические методы используются в лингвистике на протяжении долгого времени. Однако в последнее время в связи с развитием информационных технологий статистический аппарат получил свое второе развитие и стал более активно применяться для решения прикладных задач, в том числе при обработке и представлении текстовых данных. Целью работы является описание ряда статистических метрик, которые используются в лексикографических исследованиях, на примере частотного словаря русского языка, корпусов текстов и баз данных, в которых содержится информация сочетаемости лексических единиц. Данные показатели используются для дифференциации лексики по разным основаниям, представления высоко- и низкочастотных единиц, выделения слов и устойчивых словосочетаний, характерных для текстов определенного стиля или темы. Также в статье содержится краткий исторический обзор применения количественных методов к анализу текстов и обсуждаются вопросы, связанные со статистической лексикографией.

Statistical methods have been used in linguistics for a long time. However, recently, information technologies have boosted the development of statistical tools, which are now more actively used for applied tasks, including processing and presentation of text data. The purpose of the work is to describe a number of statistical metrics used in lexicographic studies, involving a frequency dictionary of the Russian language, text corpora and databases that present information about lexical collocability. These measures are implemented to differentiate vocabulary on different grounds, highlighting key words and phrases characteristic of texts of a certain style or topic. The paper also provides a brief historical overview of the application of quantitative methods to text analysis.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
-> Internet All Read Print Download

Usage statistics

stat Access count: 95
Last 30 days: 30
Detailed usage statistics