Details

Title: Общие улучшения в градиентном бустинге: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_02 «Системное программирование»
Creators: Счастливцев Никита Александрович
Scientific adviser: Чуканов Вячеслав Сергеевич
Other creators: Арефьева Людмила Анатольевна; Константинов Андрей Владимирович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт прикладной математики и механики
Imprint: Санкт-Петербург, 2021
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: градиентный бустинг; машинное обучение; деревья решений; задача регрессии; гистограммы признаков; частично-случайные деревья решений; gradient boosting; machine learning; decision trees; regression problem; features histograms; partially randomized decision trees
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 01.03.02
Speciality group (FGOS): 010000 - Математика и механика
Links: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2021/vr/vr21-2549
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\13867

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Данная работа посвящена повышению качества алгоритма машинного обучения, известного как градиентный бустинг. Задачи, которые решались в ходе исследования: 1. Разбор работы алгоритма градиентного бустинга на деревьях решений. 2. Реализация градиентного бустинга на деревьях решений с улучшениями для решения задачи регрессии. 3. Сравнение качества моделей градиентного бустинга своей реализациии с известными доступными реализациями. 4. Изучение влияния реализованных идей по улучшению алгоритма на его качество. Список основных исследуемых улучшений алгоритма: • Частично-случайные пороги признаков. • Гистограммы признаков с переменной сеткой. • Случайная добавка к цене разбиения при построении деревьев решений. В результате был написан программный модуль на языке C++ для языка Python 3, который содержит реализацию градиентного бустинга с улучшениями. Было проведено сравнение качества моделей машинного обучения, полученных в ходе своей реализации, с известными доступными реализациям на предмет качества моделей. Было исследовано влияние улучшений, представленных в работе, на качество моделей.

The given work is devoted to the quality improvement of the machine learning algorithm known as gradient boosting. The research set the following goals: 1. Understanding of the work of algorithm of gradient boosting based on regression trees in application to the solution of the regression problem. 2. Gradient boosting based on regression trees algorithm implementation. 3. Comparison of quality of gradient boosting models of the proposed implementation with known available implementations. 4. Research of impact of the implemented ideas of algorithm improvements on its quality. The list of main researched algorithm improvements: • Partially randomized feature thresholds. • Feature histograms with variable grid. • Random additive to the score of splits during decision tree fit. As the result, the program module with gradient boosting algorithm with im-provements implementation has been written in C++ language to use in Python 3 programming language. Comparison between the quality of machine learning models got with the proposed implementation and known available implementations has been done. The impact of the proposed improvements on the quality of the models has been studied.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 14
Last 30 days: 0
Detailed usage statistics