Анализ исходного кода для поиска и оптимизации гиперпараметров моделей машинного обучения: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_03 «Математическое и информационное обеспечение экономической деятельности»

Аниськов, Никита Сергеевич

Details

	Table	Card	RUSMARC

Title:	Анализ исходного кода для поиска и оптимизации гиперпараметров моделей машинного обучения: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_03 «Математическое и информационное обеспечение экономической деятельности»
Creators:	Аниськов Никита Сергеевич
Scientific adviser:	Беляев Сергей Юрьевич
Other creators:	Арефьева Людмила Анатольевна; Брыксин Тимофей Александрович
Organization:	Санкт-Петербургский политехнический университет Петра Великого. Институт прикладной математики и механики
Imprint:	Санкт-Петербург, 2021
Collection:	Выпускные квалификационные работы; Общая коллекция
Subjects:	машинное обучение; мета-обучение; автоматическое машинное обучение; машинное обучение на исходном коде; machine learning; meta-learning; automated machine learning; machine learning on source code
Document type:	Bachelor graduation qualification work
File type:	PDF
Language:	Russian
Level of education:	Bachelor
Speciality code (FGOS):	01.03.02
Speciality group (FGOS):	010000 - Математика и механика
Links:	Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI:	10.18720/SPBPU/3/2021/vr/vr21-2245
Rights:	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key:	ru\spstu\vkr\13803

Allowed Actions: –

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

В работе решается задача мета-обучения на исходном коде для оптимизации гиперпараметров моделей машинного обучения; предложен способ построения мета-алгоритма, способного извлекать метаинформацию о задаче машинного обучения из исходного кода ее решения и с помощью извлеченной метаинформации рекомендовать гиперпараметры для моделей машинного обучения; разработана и реализована система тестирования для предложенного мета-алгоритма. Задачи, решённые в рамках исследования: 1. Собраны данные с платформы Kaggle. 2. Проведен первичный анализ и предобработка данных, собранных с Kaggle, и имевшихся данных с GitHub. 3. Разработана и реализована система тестирования для мета-алгоритмов рекомендации гиперпараметров, использующих исходный код как источник информации о задаче машинного обучения. 4. Предложена архитектура мета-алгоритма рекомендации гиперпараметров, использующая построение векторных представлений кода с помощью CodeBERT и рекомендацию с помощью модели случайного леса. 5. Оценена предложенная нами архитектура мета-алгоритма с помощью системы тестирования В данной работе представлен прототип нового подхода к решению задачи мета-обучения — использование мета-алгоритмом информации об исходном ко де, решающем задачу машинного обучения. Наше решение позволяет при заданных выборке данных задачи машинного обучения и произвольной выборке кодов на языке Python, решающих эту задачу, оценивать любые мета-алгоритмы рекомендации гиперпараметров, использующие исходный код как источник мета-информации. Главным результатом проведенных экспериментов является демонстрация разработанной и реализованной нами системы тестирования мета-алгоритмов, предсказывающих гиперпараметры моделей машинного обучения по исходному коду. Система тестирования позволяет сравнивать качество различных стратегий выбора гиперпараметров при заданных наборе данных задачи машинного обучения и множестве исходных кодов, решающих её.

The subject of this work is ”Analysis of source code for search and optimization of hyperparameters of machine learning models”. This study solves the problem of metalearning on the source code to optimize the hyperparameters of machine learning models; the proposed method for constructing a metaalgorithm that can extract meta information about a machine learning problem from the source code of its solution and use the extracted metainformation to recommend hyperparameters for machine learning models; a testing system for the proposed meta algorithm is developed and implemented. During the elaboration of the problem, the following tasks were completed: 1. Collecting a dataset from Kaggle platform. 2. The initial analysis and preprocessing of the data collected from Kaggle and the available data from GitHub was carried out. 3. Developing and implementing a testing system for metaalgorithms and hyperparameters using the source code as a source of information about a machine learning task. 4. Thearchitectureofthehyperparameterrecommendationmetaalgorithmisproposed, which uses the construction of vector representations of the code using CodeBERT and the recommendation using the random forest model. 5. The proposed architecture of the metaalgorithm is evaluated using a testing system. This study presents a prototype of a new approach to solving the problem of meta learning — the use of metaalgorithm information about the source code that solves the problem of machine learning. Our solution allows us to evaluate any metaalgorithms for hyperparameter recommendations that use the source code as a source of meta information for a given data sample of a machine learning problem and an arbitrary selection of Python codes that solve this problem. The main result of the experiments is a demonstration of the developed and implemented system for testing metaalgorithms that predict the hyperparameters of machine learning models from the source code. The testing system allows you to compare the quality of various hyperparameter selection strategies for a given data set of a machine learning problem and a set of source codes that solve it.

Document access rights

	Network		User group		Action
	ILC SPbPU Local Network		All
	Internet		Authorized users SPbPU
	Internet		Anonymous

Usage statistics

Access count: 0
Last 30 days: 0
Detailed usage statistics