Таблица | Карточка | RUSMARC | |
Аннотация
Обоснована актуальность разработки сервисов, способствующих подготовке тендерной документации, в части определения кода ОКПД 2 к формируемой заявке. Для решения задачи автоматической классификации заявок в соответствии с ОКПД 2 разработан алгоритм системы сравнительного анализа моделей классификаторов, осуществлена предобработка и запись в базу данных собранной информации в формате json. Разметка и подготовка данных для обучения моделей классификаторов осуществлена в среде PolyAnalyst. В качестве моделей многоклассовых классификаторов из библиотеки Scikit-Learn выбраны наивный байесовский классификатор, SVM-классификатор и классификатор на основе случайного леса. В качестве векторизаторов выбрана модель tfidf и word-haching. В качестве четвертого классификатора выбрана нейросетевая модель ruBert-base. Проведено обучение классификаторов и оценено качество их работы. По результатам валидации и тестирования лучшими оказались две модели: ruBert-base и модель наивного байесовского классификатора с векторизатором word-hashing. На основе результатов произведена тестовая классификация заявок.
As a result of the analysis, the relevance of developing services that contribute to the preparation of tender documentation, in terms of determining the OKPD 2 code for the generated application, is indicated. To solve the problem of automatic classification of applications in accordance with OKPD 2, an algorithm for the system of comparative analysis of classifier models was developed. Further, preprocessing was carried out, and the collected information was written to the database in json format. Labeling and preparation of data for training classifier models was carried out in the PolyAnalyst environment. As a result of the analysis, a naive Bayes classifier, an SVM classifier, and a random forest classifier were selected as models of multiclass classifiers from the Scikit-Learn library. The TFIDF and word-haching models were chosen as vectorizers. The ruBert-base neural network model was chosen as the fourth classifier. Classifiers were trained and the quality of their work was assessed. According to the results of validation and testing, two models turned out to be the best: ruBert-base and a model of a naive Bayes classifier with a word-hashing vectorizer. Based on the results, a test classification of applications was made.
Права на использование объекта хранения
Входит в состав
Статистика использования
Количество обращений: 114
За последние 30 дней: 6 Подробная статистика |