Details

Title: Разработка и исследование моделей многоклассовых классификаторов для рекомендательной системы подготовки заявок на портале единой информационной системы в сфере закупок // Информатика, телекоммуникации и управление. – 2022. – С. 43-62
Creators: Селиверстов Я. А.; Комиссаров А. А.; Лесоводская А. А.; Бовыкин П. Г.; Подтихов А. В.; Торсионов С. С.; Цирков Д. А.; Орлов С. А.
Imprint: 2022
Collection: Общая коллекция
Subjects: Вычислительная техника; Обработка и создание документов; единая информационная система; тендерная документация; подготовка заявок; рекомендательные системы подготовки заявок; сфера закупок; многоклассовые классификаторы; модели многоклассовых классификаторов; unified information system; tender documentation; preparation of applications; recommendation systems for preparing applications; scope of procurement; multiclass classifiers; models of multiclass classifiers
UDC: 004.91
LBC: 32.973-018.2
Document type: Article, report
File type: PDF
Language: Russian
DOI: 10.18721/JCSTCS.15204
Rights: Свободный доступ из сети Интернет (чтение, печать, копирование)
Record key: RU\SPSTU\edoc\68986

Allowed Actions: Read Download (2.9 Mb)

Group: Anonymous

Network: Internet

Annotation

Обоснована актуальность разработки сервисов, способствующих подготовке тендерной документации, в части определения кода ОКПД 2 к формируемой заявке. Для решения задачи автоматической классификации заявок в соответствии с ОКПД 2 разработан алгоритм системы сравнительного анализа моделей классификаторов, осуществлена предобработка и запись в базу данных собранной информации в формате json. Разметка и подготовка данных для обучения моделей классификаторов осуществлена в среде PolyAnalyst. В качестве моделей многоклассовых классификаторов из библиотеки Scikit-Learn выбраны наивный байесовский классификатор, SVM-классификатор и классификатор на основе случайного леса. В качестве векторизаторов выбрана модель tfidf и word-haching. В качестве четвертого классификатора выбрана нейросетевая модель ruBert-base. Проведено обучение классификаторов и оценено качество их работы. По результатам валидации и тестирования лучшими оказались две модели: ruBert-base и модель наивного байесовского классификатора с векторизатором word-hashing. На основе результатов произведена тестовая классификация заявок.

As a result of the analysis, the relevance of developing services that contribute to the preparation of tender documentation, in terms of determining the OKPD 2 code for the generated application, is indicated. To solve the problem of automatic classification of applications in accordance with OKPD 2, an algorithm for the system of comparative analysis of classifier models was developed. Further, preprocessing was carried out, and the collected information was written to the database in json format. Labeling and preparation of data for training classifier models was carried out in the PolyAnalyst environment. As a result of the analysis, a naive Bayes classifier, an SVM classifier, and a random forest classifier were selected as models of multiclass classifiers from the Scikit-Learn library. The TFIDF and word-haching models were chosen as vectorizers. The ruBert-base neural network model was chosen as the fourth classifier. Classifiers were trained and the quality of their work was assessed. According to the results of validation and testing, two models turned out to be the best: ruBert-base and a model of a naive Bayes classifier with a word-hashing vectorizer. Based on the results, a test classification of applications was made.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
-> Internet All Read Print Download

Usage statistics

stat Access count: 118
Last 30 days: 7
Detailed usage statistics