Оценка эффектов гиперпараметров в сверточных нейронных сетях: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»

Мулонде, Филипе Педру Ду Нашсименту

Детальная информация

Название	Оценка эффектов гиперпараметров в сверточных нейронных сетях: выпускная квалификационная работа магистра: направление 02.04.01 «Математика и компьютерные науки» ; образовательная программа 02.04.01_03 «Искусственный интеллект и машинное обучение»
Авторы	Мулонде Филипе Педру Ду Нашсименту
Научный руководитель	Уткин Лев Владимирович
Организация	Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и технологий
Выходные сведения	Санкт-Петербург, 2022
Коллекция	Выпускные квалификационные работы ; Общая коллекция
Тематика	Нейронные сети ; глубокое обучение ; гиперпараметры ; deep learning ; hyper-parameters
УДК	004.032.26
Тип документа	Выпускная квалификационная работа магистра
Тип файла	PDF
Язык	Русский
Уровень высшего образования	Магистратура
Код специальности ФГОС	02.04.01
Группа специальностей ФГОС	020000 - Компьютерные и информационные науки
DOI	10.18720/SPBPU/3/2023/vr/vr23-684
Права доступа	Доступ по паролю из сети Интернет (чтение, печать)
Ключ записи	ru\spstu\vkr\20752
Дата создания записи	03.04.2023

Разрешенные действия

–

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа	Анонимные пользователи
Сеть	Интернет

Тема выпускной квалификационной работы: «Оценка эффектов гиперпараметров в сверточных нейронных сетях». Данная работа посвящена исследованию эффектов гиперпараметров нейронных сетей в сверточных нейронных сетях с использованием набора данных CIFAR-10. Задачи, которые решались в ходе исследования: Обзор гиперпараметров и существующих методов для понимания эффектов гиперпараметров сверточных нейронных сетей. Разработка базовой модели (сверточной нейронной сети) с использованием набора данных CIFAR-10. Взаимодействие гиперпараметров в разработанной сверточной нейронной сети. Визуализация производительности модели с использованием различных гиперпараметров. Анализ взаимодействия гиперпараметров в сверточных нейронных сетях. Понимание влияния комбинаций гиперпараметров сверточных нейронных сетей. Работа выполнена на основе открытого набора данных CIFAR-10. На языке программирования Python 3 с библиотеками pytorch и matplotlib. Нейронные сети имеют множество гиперпараметров, включая выбор метода градиентного спуска, функции активации, регуляризацию, нормализацию, размер партии и так далее. Хотя существуют передовые методы, взаимодействие между различными вариантами гиперпараметров может быть трудно предсказать. Для изучения этого была разработана базовая модель (сверточная нейронная сеть) с точностью более 90% на наборе данных CIFAR-10 с использованием следующих методов: шкала скорости обучения, уменьшение веса, градиентное вырезание, нормализация данных, нормализация партии, увеличение данных, Остаточные связи. С помощью этой модели было проведено научное исследование, посвященное изучению эффектов гиперпараметров в сверточных нейронных сетях. Мы экспериментировали с различными гиперпараметрами базовой модели, а затем рассмотрели производительность модели в отношении переобучения, недообучения и точности, а также чтобы понять сложную взаимосвязь между гиперпараметрами и производительностью модели. Результаты показывают поведение базовой модели при использовании различных гиперпараметров, а также показывают, как сложные зависимости между гиперпараметрами влияют на конечную производительность модели, демонстрируя важность понимания влияния комбинаций гиперпараметров. На основании исследования можно сделать вывод, что для достижения наивысшей точности требуется оптимальное сочетание оптимизатора, функции активации, размера партии и инициализации.

The theme of the final graduation research: «Evaluating the effects of hyper-parameters in convolutional neural networks». This research is devoted to research the effects of neural networks hyper-parameters in Convolutional Neural networks using the CIFAR-10 dataset. The Tasks that were solved during the research: Review of hyperparameters and existing methods for understanding the effects of hyperparameters in convolutional neural networks. Development of a base model (convolutional neural network) using CIFAR-10 dataset. Interaction of hyperparameters in the developed convolutional neural network. Visualization of model performance using different hyperparameters. Analysis of the interaction of hyperparameters in convolutional neural networks. Understanding the impact of Convolutional Neural Networks hyperparameter combinations. The work was carried out based on an open dataset CIFAR-10. In the Python 3 programming language, with the pytorch and matplotlib libraries. Neural networks have many hyper-parameters, including choice of gradient descent method, activation functions, regularization, normalization, batch size, and so on. While best practices exist, interactions between different hyperparameter options can be difficult to predict. To study this, a base model (convolutional neural network) with more than 90% accuracy was developed on the CIFAR-10 dataset using the following techniques: Learning Rate Scale, Weight Decay, Gradient Cutting, Data Normalization, Batch Normalization, Data Augmentation, Residual Connections. Through this model, a scientific research was carried out dedicated to studying the effects of hyper-parameters in convolutional neural networks. We experimented with different hyper-parameters on the base model and then looked at the performance of the model with regard to overfitting, underfitting and accuracy and also to be able to understand the complicated relationship between hyper-parameters and model performance. The results show the behavior of the model when using different hyperparameters and also reveal how complicated dependencies between hyperparameters influence the final performance of the model, demonstrating that it is important to understand the impact of hyperparameter combinations. Based on the research, it can be concluded that an optimal combination of optimizer, activation function,batch size and initialization is required to reach the highest accuracy.

Место доступа	Группа пользователей	Действие
Локальная сеть ИБК СПбПУ	Все
Интернет	Авторизованные пользователи СПбПУ
Интернет	Анонимные пользователи

Введение 9
Глава 1 ОБЗОР ГИПЕРПАРАМЕТРОВ И СУЩЕСТВУЮЩИХ МЕТОДОВ ДЛЯ ПОНИМАНИЯ ЭФФЕКТОВ ГИПЕРПАРАМЕТРОВ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ. 11
Глава 2 РАЗРАБОТКА СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ НА НАБОРЕ ДАННЫХ CIFAR-10. 40
Глава 3 МЕТОДОЛОГИЯ И ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТОВ И ИССЛЕДОВАНИЯ. 52
Глава 4 РЕЗУЛЬТАТЫ НАУЧНЫХ ИССЛЕДОВАНИЙ 54
Глава 5 Анализ результатов научного исследования 109
Заключение 117
Список использованных источников 118
Приложение А 121
Введение
Глава 1 ОБЗОР ГИПЕРПАРАМЕТРОВ И СУЩЕСТВУЮЩИХ МЕТОДОВ ДЛЯ ПОНИМАНИЯ ЭФФЕКТОВ ГИПЕРПАРАМЕТРОВ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ.
- 1.1 Архитектура традиционной CNN.
- 1.2 Гиперпараметры фильтра
- 1.3 Объединение
- 1.4 Рецептивное
- 1.5 Понимание сложности модели CNN.
- 1.6 Архитектуры
- 1.7 Реализация сверточных слоев.
- 1.8 Сверточные слои
- Иллюстрация свертки
- 1.9 Вычисление слоя свертки
- 1.10 Грунтование
- 1.11 Понижающая дискретизация(Downsampling)
- 1.12 Шаговая свертка
- 1.13 Рецептивное поле
- 1.14 Полностью связанные слои
- 1.15 Апсемплинг
- 1.16 Max-Unpooling
- 1.17 Дилатационная свертка
- 1.18 Выводы по главе 1
Глава 2 РАЗРАБОТКА СВЕРТОЧНОЙ НЕЙРОННОЙ СЕТИ НА НАБОРЕ ДАННЫХ CIFAR-10.
- 2.1 Набор данных CIFAR-10
- 2.2 PyTorch
- 2.3 Реализация базовой модели
  - 2.3.1 Рандомизированные дополнения данны
  - 2.3.2 Рандомизированные дополнения данны
  - 2.3.3 Пакетная нормализация
  - 2.3.4 Выбывать
  - 2.3.5 Конфигурации базовой модели
- 2.4 Обучение модели
  - 2.4.1 Оптимизация
- 2.5 Производительность модели
- 2.6 Тестирование с отдельными изображениями
- 2.7 Выводы по главе 2
Глава 3 МЕТОДОЛОГИЯ И ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТОВ И ИССЛЕДОВАНИЯ.
- 3.1 Методология исследования – это эксперимент
- 3.2 Настройка системы
- 3.3 Характеристики системы
  - Оперативная память
  - Операционная система
- 3.4 Выводы по главе 3
Глава 4 РЕЗУЛЬТАТЫ НАУЧНЫХ ИССЛЕДОВАНИЙ
- 4.1 Эпоха
  - 4.1.1 Базовая модель с 16 эпохами
  - 4.1.2 Базовая модель с 24 эпохами
  - 4.1.3 Базовая модель с 64 эпохами
- 4.2 Слои свертки
  - 4.2.1 Базовая модель с 10 слоями свертки
  - 4.2.2 Базовая модель с 12 слоями свертки
- 4.3 Функции активации и метод оптимизации Адам.
  - 4.3.1 TANH
  - 4.3.2 ELU
  - 4.3.3 SIGMOID
  - 4.3.4 LEAKYRELU
- 4.4 Функции активации и метод оптимизации SGD
  - 4.4.1 LEAKYRELU
  - 4.4.2 TANH
  - 4.4.3 SIGMOID
  - 4.4.4 ELU
- 4.5 Оптимизаторы и инициализация
  - 4.5.1 Sgd импульс с постоянной инициализацией
  - 4.5.2 Sgd импульс с xavier uniform инициализацией
  - 4.5.3 Sgd импульс с xavier normal инициализацией
  - 4.5.4 ADAM с постоянной инициализацией
  - 4.5.5 ADAM с xavier uniform инициализацией
  - 4.5.6 ADAM с xavier normal инициализацией
  - 4.5.7 RMSprop с постоянной инициализацией
  - 4.5.8 RMSprop с xavier uniform инициализацией
  - 4.5.9 RMSprop с xavier normal инициализацией
- 4.6 Выводы по главе 4
Глава 5 Анализ результатов научного исследования
- 5.1.1 Эпоха
- 5.1.2 Слои свертки
- 5.1.3 Функции активации и метод оптимизации Адам.
- 5.1.4 Функции активации и метод оптимизации SGD
- 5.1.5 Оптимизаторы и инициализация(SGD)
- 5.1.6 Оптимизаторы и инициализация(ADAM)
- 5.1.7 Оптимизаторы и инициализация(RMSprop)
- 5.2 Зависимости между гиперпараметрами и их влияние на конечную производительность.
  - 5.2.1 Оптимизатор
  - 5.2.2 Активационная функция
  - 5.2.3 Эпоха и Активационная функция
- 5.3 Выводы по главе 5
Заключение
Список использованных источников
Приложение А
- Код реализации сверточной сети в pytorch.

Количество обращений: 8
За последние 30 дней: 0

Подробная статистика