Разработка и исследование моделей многоклассовых классификаторов для рекомендательной системы подготовки заявок на портале единой информационной системы в сфере закупок

Селиверстов, Я. А.; Комиссаров, А. А.; Лесоводская, А. А.; Бовыкин, П. Г.; Подтихов, А. В.; Торсионов, С. С.; Цирков, Д. А.; Орлов, С. А.

Вход в систему

Детальная информация

	Таблица	Карточка	RUSMARC

Название:	Разработка и исследование моделей многоклассовых классификаторов для рекомендательной системы подготовки заявок на портале единой информационной системы в сфере закупок // Информатика, телекоммуникации и управление. – 2022. – С. 43-62
Авторы:	Селиверстов Я. А.; Комиссаров А. А.; Лесоводская А. А.; Бовыкин П. Г.; Подтихов А. В.; Торсионов С. С.; Цирков Д. А.; Орлов С. А.
Выходные сведения:	2022
Коллекция:	Общая коллекция
Тематика:	Вычислительная техника; Обработка и создание документов; единая информационная система; тендерная документация; подготовка заявок; рекомендательные системы подготовки заявок; сфера закупок; многоклассовые классификаторы; модели многоклассовых классификаторов; unified information system; tender documentation; preparation of applications; recommendation systems for preparing applications; scope of procurement; multiclass classifiers; models of multiclass classifiers
УДК:	004.91
ББК:	32.973-018.2
Тип документа:	Статья, доклад
Тип файла:	PDF
Язык:	Русский
DOI:	10.18721/JCSTCS.15204
Права доступа:	Свободный доступ из сети Интернет (чтение, печать, копирование)
Ключ записи:	RU\SPSTU\edoc\68986

Разрешенные действия: Прочитать Загрузить (2,9 Мб)

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Обоснована актуальность разработки сервисов, способствующих подготовке тендерной документации, в части определения кода ОКПД 2 к формируемой заявке. Для решения задачи автоматической классификации заявок в соответствии с ОКПД 2 разработан алгоритм системы сравнительного анализа моделей классификаторов, осуществлена предобработка и запись в базу данных собранной информации в формате json. Разметка и подготовка данных для обучения моделей классификаторов осуществлена в среде PolyAnalyst. В качестве моделей многоклассовых классификаторов из библиотеки Scikit-Learn выбраны наивный байесовский классификатор, SVM-классификатор и классификатор на основе случайного леса. В качестве векторизаторов выбрана модель tfidf и word-haching. В качестве четвертого классификатора выбрана нейросетевая модель ruBert-base. Проведено обучение классификаторов и оценено качество их работы. По результатам валидации и тестирования лучшими оказались две модели: ruBert-base и модель наивного байесовского классификатора с векторизатором word-hashing. На основе результатов произведена тестовая классификация заявок.

As a result of the analysis, the relevance of developing services that contribute to the preparation of tender documentation, in terms of determining the OKPD 2 code for the generated application, is indicated. To solve the problem of automatic classification of applications in accordance with OKPD 2, an algorithm for the system of comparative analysis of classifier models was developed. Further, preprocessing was carried out, and the collected information was written to the database in json format. Labeling and preparation of data for training classifier models was carried out in the PolyAnalyst environment. As a result of the analysis, a naive Bayes classifier, an SVM classifier, and a random forest classifier were selected as models of multiclass classifiers from the Scikit-Learn library. The TFIDF and word-haching models were chosen as vectorizers. The ruBert-base neural network model was chosen as the fourth classifier. Classifiers were trained and the quality of their work was assessed. According to the results of validation and testing, two models turned out to be the best: ruBert-base and a model of a naive Bayes classifier with a word-hashing vectorizer. Based on the results, a test classification of applications was made.

Права на использование объекта хранения

	Место доступа		Группа пользователей		Действие
	Локальная сеть ИБК СПбПУ		Все
	Интернет		Все

Входит в состав

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. — Электрон. журнал. — Периодичность: 4 раза в год. — Свободный доступ из сети Интернет (чтение, печать, копирование). — Текст: электронный

Информатика, телекоммуникации и управление = Computing, Telecommunications and Control. — Санкт-Петербург: СПбПУ, 2020-. Vol. 15, № 2, 2022. — 1 файл (6,09 Мб). — Свободный доступ из сети Интернет (чтение, печать, копирование). — <URL:http://elib.spbstu.ru/dl/2/j22-271.pdf>.

Статистика использования

Количество обращений: 114
За последние 30 дней: 6
Подробная статистика