Детальная информация

Название: Исследование возможностей рекуррентных нейронных сетей для решения задачи классификации слабоструктурированной информации на примере библиографических данных // Известия высших учебных заведений. Электроника: научно-технический журнал. – 2022. – С. 259-267
Авторы: Петров Е. Н.; Портнов Е. М.
Выходные сведения: 2022
Коллекция: Общая коллекция
Тематика: Вычислительная техника; Программирование ЭВМ. Компьютерные программы. Программотехника; нейронные сети; рекуррентные нейронные сети; слабоструктурированная информация; классификация слабоструктурированной информации; библиографические данные; обработка данных; автоматизированная классификация информации; neural networks; recurrent neural networks; weakly structured information; classification of weakly structured information; bibliographic data; data processing; automated classification of information
УДК: 004.41/42
ББК: 32.973-018
Тип документа: Статья, доклад
Тип файла: Другой
Язык: Русский
DOI: 10.24151/1561-5405-2022-27-2-259-267
Права доступа: Доступ по паролю из сети Интернет (чтение)
Ключ записи: RU\SPSTU\edoc\68474

Разрешенные действия: Посмотреть

Аннотация

С развитием информационных технологий проблема автоматизированной обработки данных возникает в различных предметных областях, в том числе при библиографическом описании. Когда собираемая из разных источников информация представлена в виде неоднородно структурированных библиографических записей, содержащих неточности в оформлении, перенос данных в сводную таблицу или отчет становится трудоемкой задачей, результат выполнения которой подвержен влиянию человеческого фактора. В связи с этим автоматизировать классификацию информации, содержащейся в библиографических записях, актуально. В работе исследованы возможности рекуррентных нейронных сетей для решения задачи классификации слабоструктурированной информации на примере библиографических данных. Показано, что для применения рекуррентной нейронной сети, прежде всего, необходимо перейти от естественного представления полученных записей к признаковому. При этом выбор комплекса признаков представляет собой отдельную нетривиальную задачу. Для программной реализации выбран язык Python. Для оценки результатов работы созданного программного модуля использована тестовая выборка библиографических записей, составленных на основе научных трудов сотрудников Института системной и программной инженерии и информационных технологий МИЭТ за последние пять лет. Итоговая точность составила 86 %, что на 11 % больше результата, полученного при использовании нейронной сети прямого распространения. Разработанные признаковое представление и структура рекуррентной нейронной сети позволят перейти к автоматизированной обработке библиографических данных с последующей обязательной коррекцией результатов оператором.

New fields of automatic data processing become available, including bibliographic data, with current progress of information technologies. When bibliographic data is gathered from multiple sources and contains non-uniformly structured bibliographic records with formatting mistakes, transmitting the data to the summary table costs time and effort while the result is prone to human factor impact. Consequently, automatic bibliographic data processing is relevant and in demand. This work investigates the capabilities of recurrent neural networks for solving the problem of classification of poorly structured bibliographic information. It was shown that to apply a recurrent neural network one needs to change from natural to feature presentation of bibliographic data gathered, that is to present the data as a set of features. Choosing such a feature set is another complex problem. The developed recurrent neural network structure was implemented using Python programming language. To estimate the developed software module performance a test set was formed from the publications list of MIET Institute of Systems and Software Engineers and Information Technology, covering the past five years. The module’s precision has reached 86 % that is 11 % over the results of feed-forward network implementation. The developed feature set and recurrent neural network structure make possible automatic bibliographic data processing with obligatory user post-processing.

Статистика использования

stat Количество обращений: 28
За последние 30 дней: 1
Подробная статистика