Детальная информация

Название: Динамическое тематическое моделирование русскоязычного корпуса юридических документов // Terra Linguistica. – 2023. – С. 70-87
Авторы: Митрофанова О. А.; Атугодаге М. М.
Выходные сведения: 2023
Коллекция: Общая коллекция
Тематика: Языкознание; Математическая лингвистика; Прикладное языкознание; тематическое моделирование; динамическое тематическое моделирование; юридические документы; корпуса юридических документов; русскоязычные корпуса документов; законодательные документы; нейросетевые модели; mathematical modeling; dynamic thematic modeling; legal documents; corpus of legal documents; Russian-language corpus of documents; legislative documents; neural network models
УДК: 81'32; 81'33
ББК: 81.1
Тип документа: Статья, доклад
Тип файла: PDF
Язык: Русский
DOI: 10.18721/JHSS.14107
Права доступа: Свободный доступ из сети Интернет (чтение, печать, копирование)
Ключ записи: RU\SPSTU\edoc\70639

Разрешенные действия: Прочитать Загрузить (0,9 Мб)

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Статья посвящена анализу результатов динамического тематического моделирования законодательных актов Российской Федерации, указов высших должностных лиц и постановлений Верховного и Конституционного Судов за 2008–2022 годы, входящих в исследовательский корпус русскоязычных юридических документов. В статье описаны процедуры формирования и предобработки корпуса, эксперименты по обучению тематических моделей на данном корпусе. Рассматривается как стандартная тематическая модель, так и динамическая тематическая модель, учитывающая изменение тем корпуса во времени. После обучения моделей в различных условиях был определен набор оптимальных параметров обучения. В качестве основного инструмента тематического моделирования использовалась библиотека BERTopic на языке программирования Python, комбинирующая алгоритмы построения тематических моделей и нейросетевые контекстуализированные модели распределенных векторных вложений. Исследовательские данные могут представлять интерес не только для специалистов в области компьютерной лингвистам, но и для социологов, политологов, юристов, работающих с законодательными документами.

The article is devoted to the dynamic topic modelling analysis of legislative acts, decrees of senior officials and resolutions of the Supreme and Constitutional Courts dated 2008–2022, included into the research corpus of Russian legal documents. The article describes the procedures of corpus construction and preprocessing, training of topic models on this corpus. We consider both standard topic model and a dynamic topic model that takes into account changes in topics over time. After training the models in various conditions, a set of optimal training parameters was determined. The BERTopic library was used as the main tool for topic modelling, combining algorithms for constructing topic models and contextualized neural network models of distributed vectors. The research data may be of interest both for specialists in the field of computational linguistics as well as for sociologists, political scientists, lawyers working with legislative documents.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
-> Интернет Все Прочитать Печать Загрузить

Статистика использования

stat Количество обращений: 96
За последние 30 дней: 8
Подробная статистика