Table | Card | RUSMARC | |
Allowed Actions: –
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group: Anonymous Network: Internet |
Annotation
В работе решается задача мета-обучения на исходном коде для оптимизации гиперпараметров моделей машинного обучения; предложен способ построения мета-алгоритма, способного извлекать метаинформацию о задаче машинного обучения из исходного кода ее решения и с помощью извлеченной метаинформации рекомендовать гиперпараметры для моделей машинного обучения; разработана и реализована система тестирования для предложенного мета-алгоритма. Задачи, решённые в рамках исследования: 1. Собраны данные с платформы Kaggle. 2. Проведен первичный анализ и предобработка данных, собранных с Kaggle, и имевшихся данных с GitHub. 3. Разработана и реализована система тестирования для мета-алгоритмов рекомендации гиперпараметров, использующих исходный код как источник информации о задаче машинного обучения. 4. Предложена архитектура мета-алгоритма рекомендации гиперпараметров, использующая построение векторных представлений кода с помощью CodeBERT и рекомендацию с помощью модели случайного леса. 5. Оценена предложенная нами архитектура мета-алгоритма с помощью системы тестирования В данной работе представлен прототип нового подхода к решению задачи мета-обучения — использование мета-алгоритмом информации об исходном ко де, решающем задачу машинного обучения. Наше решение позволяет при заданных выборке данных задачи машинного обучения и произвольной выборке кодов на языке Python, решающих эту задачу, оценивать любые мета-алгоритмы рекомендации гиперпараметров, использующие исходный код как источник мета-информации. Главным результатом проведенных экспериментов является демонстрация разработанной и реализованной нами системы тестирования мета-алгоритмов, предсказывающих гиперпараметры моделей машинного обучения по исходному коду. Система тестирования позволяет сравнивать качество различных стратегий выбора гиперпараметров при заданных наборе данных задачи машинного обучения и множестве исходных кодов, решающих её.
The subject of this work is ”Analysis of source code for search and optimization of hyperparameters of machine learning models”. This study solves the problem of metalearning on the source code to optimize the hyperparameters of machine learning models; the proposed method for constructing a metaalgorithm that can extract meta information about a machine learning problem from the source code of its solution and use the extracted metainformation to recommend hyperparameters for machine learning models; a testing system for the proposed meta algorithm is developed and implemented. During the elaboration of the problem, the following tasks were completed: 1. Collecting a dataset from Kaggle platform. 2. The initial analysis and preprocessing of the data collected from Kaggle and the available data from GitHub was carried out. 3. Developing and implementing a testing system for metaalgorithms and hyperparameters using the source code as a source of information about a machine learning task. 4. Thearchitectureofthehyperparameterrecommendationmetaalgorithmisproposed, which uses the construction of vector representations of the code using CodeBERT and the recommendation using the random forest model. 5. The proposed architecture of the metaalgorithm is evaluated using a testing system. This study presents a prototype of a new approach to solving the problem of meta learning — the use of metaalgorithm information about the source code that solves the problem of machine learning. Our solution allows us to evaluate any metaalgorithms for hyperparameter recommendations that use the source code as a source of meta information for a given data sample of a machine learning problem and an arbitrary selection of Python codes that solve this problem. The main result of the experiments is a demonstration of the developed and implemented system for testing metaalgorithms that predict the hyperparameters of machine learning models from the source code. The testing system allows you to compare the quality of various hyperparameter selection strategies for a given data set of a machine learning problem and a set of source codes that solve it.
Document access rights
Network | User group | Action | ||||
---|---|---|---|---|---|---|
ILC SPbPU Local Network | All | |||||
Internet | Authorized users SPbPU | |||||
Internet | Anonymous |
Usage statistics
Access count: 0
Last 30 days: 0 Detailed usage statistics |