Детальная информация

Название: Моделирование влияния макроэкономических факторов на развитие фондового рынка страны с использованием методов машинного обучения: выпускная квалификационная работа магистра: направление 01.04.05 «Статистика» ; образовательная программа 01.04.05_01 «Моделирование и анализ больших данных в экономике»
Авторы: Журбин Борис Николаевич
Научный руководитель: Королёва Екатерина Васильевна
Организация: Санкт-Петербургский политехнический университет Петра Великого. Институт промышленного менеджмента, экономики и торговли
Выходные сведения: Санкт-Петербург, 2024
Коллекция: Выпускные квалификационные работы; Общая коллекция
Тематика: фондовый рынок; моделирование влияния; макроэкономические факторы; экономика; stock market; modelling of influence; macroeconomic factors; economy
Тип документа: Выпускная квалификационная работа магистра
Тип файла: PDF
Язык: Русский
Уровень высшего образования: Магистратура
Код специальности ФГОС: 01.04.05
Группа специальностей ФГОС: 010000 - Математика и механика
DOI: 10.18720/SPBPU/3/2024/vr/vr24-4326
Права доступа: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно: Новинка
Ключ записи: ru\spstu\vkr\29906

Разрешенные действия:

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа: Анонимные пользователи

Сеть: Интернет

Аннотация

Тема  выпускной  квалификационной  работы: «Моделирование влияния макроэкономических факторов на развитие фондового рынка страны с использованием методов машинного обучения». Данная работа посвящена выявлению, анализу и моделированию влияния макроэкономических факторов на фондовый рынок стран (Россия, Китай, США), а также формированию рекомендаций для будущих исследований с целью улучшения качества статистических результатов будущих исследований за счет подбора моделей машинного обучения с учетом специфики исследуемой экономики. В ходе выполнения работы решались следующие задачи: − провести систематический литературный обзор; − выдвинуть гипотезы для последующего тестирования; − определить популярные и эффективные подходы к анализу и обработке данных в контексте текущего исследования; − выбрать релевантные для исследования страны и исследовать особенности их экономического развития; − аргументировать выбор методологии исследования; − провести статистический анализ собранных данных по странам; − построить ряд моделей машинного обучения; − интерпретировать полученные результаты и разработать на их основании рекомендации для анализируемых стран. В ходе исследования использовались следующие программные продукты: язык программирования Python (среда – Google Colab). Результатом работы является выявление важности влияния макроэкономических факторов на индекс фондового рынка с помощью методов машинного обучения в разрезе трех стран: России, Китая и США.

The topic of the graduate qualification work: "Modelling the influence of macroeconomic factors on the development of the countrys stock market using machine learning methods". This work is devoted to the identification, analysis and modelling of the influence of macroeconomic factors on the stock market of countries (Russia, China, USA), as well as the formation of recommendations for future research to improve the quality of work by selecting machine learning models taking into account the specifics of the studied economy. In the course of the work the following tasks were solved: − researching the results of relevant studies; − proposing hypotheses for further processing; − extracting and studying the most frequently used and effective methods for    working with data in the context of the current study; − studying the peculiarities of economic development of the selected countries; − argumentation of the choice of machine learning models for further implementation; − conducting statistical analyses of the collected data by country; − defining and characterising the key concepts of the study; − studying the theoretical and methodological approaches of the research analysis; − study of theoretical and methodological main factors that can affect this dependence. The result of the work is to put forward a hypothesis about the dependence between the type of economy of the state and the quality of work of different types of machine models.

Права на использование объекта хранения

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ Прочитать Печать Загрузить
-> Интернет Анонимные пользователи

Оглавление

  • ЗАДАНИЕ
  • ВВЕДЕНИЕ
  • 1. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ВЛИЯНИЯ МАКРОЭКОНОМИЧЕСКИХ ФАКТОРОВ НА РАЗВИТИЕ ФОНДОВОГО РЫНКА
  • Концентрированные результаты по проанализированным статьям представлены в таблице 1:
  • 2. ОБОСНОВАНИЕ МЕТОДОЛОГИИ ИССЛЕДОВАНИЯ
  • 2.1 Анализ используемых моделей машинного обучения
  • 2.2 Анализ исследуемых стран
  • В рамках текущей главы будет проанализирован и аргументирован выбор стран для дальнейшего анализа в рамках исследования. Выбор основывался на объеме экономики и степени важности на мировом рынке. Так же, во внимание принимались исторические особенност...
  • Россия:
  • Как и в случае с любой экономикой, на фондовый рынок России оказывают влияние такие макроэкономические факторы как изменение курса рубля, инфляция, темпы экономического роста, уровень безработицы и другие: изменение курса рубля влияет на стоимость экс...
  • Таким образом, кандидатура России в качестве страны для изучения влияния макроэкономических факторов на фондовый рынок актуальна и обоснована. Исследования данной области позволят получить результаты, которые могут быть использованы для разработки инв...
  • Китай:
  • В разрезе совокупности перечисленных факторов - выбор Китая в качестве страны для сбора и анализа данных о влиянии макроэкономических факторов на фондовый рынок является актуальным. Быстрый рост и развитие китайской экономики и фондового рынка, а такж...
  • США:
  • Американский фондовый рынок - один из самых ликвидных, старейших и развитых в мире, с высокой степенью прозрачности и регулятивного надзора. Индекс S&P 500 - один из наиболее широко признанных и пристально отслеживаемых индикаторов американского фондо...
  • Результаты такого исследования могут иметь значение не только для научных исследований, но и для практического применения: полученные результаты могут внести вклад в развитие экономической теории и дать представление о поведении финансовых рынков а та...
  • 3. ПЕРВИЧНЫЙ АНАЛИЗ ДАННЫХ, МОДЕЛИРОВАНИЕ И ИНТЕРПРЕТАЦИЯ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ
  • 3.1 Обоснование, сбор и первичный анализ исходных данных
  • В предыдущем пункте текущего исследования был обоснован выбор трех стран (Россия, Китай и США). В данном пункте произведен сбор и первичный анализ данных:
  • Россия: (1)
  • Данные по России были собраны из открытых источников, как правило, путем скачивания уже готовых данных. Использовалась как исторические данные с финансовых и статистических порталов, таких как Investing.com и Tradeeconomics.com, так и данные из Федера...
  • Датасет по России выглядит следующим образом (рисунок 1):
  • Рисунок 1 – Датасет по России (разработано автором)
  • Набор данных включает в себя 314 наблюдений, с октября 1997 года по ноябрь 2023 (все переменные приведены к виду «за месяц»), состоит из 6 столбцов:
  • - дата (год-месяц);
  • - индекс московской биржи (ммвб_м_м_проценты), представленный в формате процентного изменения в сравнении с показателем предшествующего месяца;
  • - инфляция (инфляция_м_м), представленная так же в виде процентного изменения в сравнении с показателем предшествующего месяца;
  • - ключевая ставка (ключевая_ставка_разница_), представленная в виде процентного изменения относительно прошлого периода;
  • - индекс деловой активности (pmi_м_м);
  • - валютный курс рубля (курс_доллар_рубль_проценты_м_м), представлен в виде изменения процентного соотношения рубля к доллару по месяцам.
  • Необходимо провести предварительный анализ каждой имеющейся переменной:
  • Индекс мосбиржи, целевая переменная, имеет нормальную форму (рисунок 2). При это индекс в среднем растёт, что соответствует общей логики и отражено в значениях среднего и медианы (рисунок 3). Присутствуют выбросы, которые будут очищены для наилучшей р...
    • Рисунок 2 - График распределения изменения в процентном соотношении индекса ММВБ по месяцам (разработано автором)
  • Набор данных включает в себя 396 наблюдений (все переменные приведены к виду «за месяц»), состоит из 5 столбцов:
  • - дата (год-месяц); (1)
  • - индекс шанхайской биржи (разница_в_процентах_м_м_ssec), представленный в формате процентного изменения в сравнении с показателем предшествующего месяца;
  • - инфляция (инфляция_м_м), представленная так же в виде процентного изменения в сравнении с показателем предшествующего месяца; (1)
  • - валютный курс рубля (курс_доллар_юань_в_процентах_м_м), в виде изменения процентного соотношения юаня к доллару по месяцам;
  • - индекс деловой активности (pmi_м_м).
  • Необходимо провести предварительный анализ каждой имеющейся переменной: (1)
  • Датасет по США выглядит следующим образом (рисунок 23):
  • Рисунок 23 – Датасет по США (разработано автором)
  • Датасет состоит из 719 наблюдений (формат представления– «за месяц»), и 7 столбцов:
  • - дата (год-месяц); (2)
  • - валовый внутренний продукт (ВВП) в формате процентного изменения в сравнении с показателем предшествующего месяца (GDP change %);
  • - индекс потребительских цен (процентное изменение в сравнении с предшествующим показателем - CPIAUCSL change %);
  • - уровень безработицы в формате процентного изменения в сравнении с предшествующим показателем (UNRATE change %);
  • - ставка по федеральным фондам в формате процентного изменения в сравнении с предшествующим показателем (FEDFUNDS change %);
  • - индекс деловой активности в формате процентного изменения в сравнении с предшествующим показателем (PMI change %);
  • - целевая переменная – Индекс S&P500 (в формате процентного изменения в сравнении с предшествующим показателем (S&P500 change %).
  • Предварительный анализ каждой описанной переменной:
  • Рисунок 24 – График распределения изменения индекса S&P500 по месяцам (разработано автором)
  • Рисунок 25 – Статистические характеристики индекса изменения S&P500 по месяцам (разработано автором)
  • Анализируя переменную ВВП, наблюдаем наличие смешения в право (Рисунок 26), что говорит о тенденции роста показателя в целом. Данные статистического анализа (Рисунок 27) подтверждают этот вывод:
  • Рисунок 26 – График распределения изменения ВВП по месяцам (разработано автором)
  • Рисунок 27 – Статистические характеристики ВВП по месяцам (разработано автором)
  • Анализ переменной изменения индекса потребительских цен в процентах по месяцам демонстрирует так же положительную общую динамику (скос в право на рисунке 28), что подтверждает так же статистический анализ (Рисунок 29), где среднее и медиана близки по ...
  • Рисунок 28 – График распределения изменения индекса потребительских цен в процентах по месяцам (разработано автором)
  • Рисунок 29 – Статистический анализ переменной изменения индекса потребительских цен в процентах по месяцам (разработано автором)
  • В ходе анализа переменной безработицы, было выявлено, что в целом, распределение указывает на положительную тенденцию роста безработицы (Рисунок 30), однако в половине случаев темп относительного роста безработицы был либо отрицателен, либо равен нулю...
  • Рисунок 30 – График распределения процентного изменения безработицы по месяцам (разработано автором)
  • Рисунок 31 – Статистический анализ распределения процентного изменения безработицы по месяцам (разработано автором)
  • Рисунок 32 – График распределения процентного изменения ставки по федеральным фондам по месяцам (разработано автором)
  • Рисунок 33 – Статистический анализ процентного изменения ставки по федеральным фондам по месяцам (разработано автором)
  • 3.2 Построение моделей с использованием методов машинного обучения
  • Более того, произведен был процесс масштабирования данных, представленных в датасете:
  • Для этого был использован метод StandartScaler, в результате применения которого среднее значение каждого столбца приводиться к значению равному 0, а стандартное отклонение – к 1. Этот метод помогает уравнивать между собой веса переменных при подаче н...
  • Этот этап предварительной обработки данных необходим был для достижения оптимального функционирования будущих моделей, так как масштабирование обеспечивает унификацию различных признаков, поддерживая тем самым более эффективное обучение моделей машин...
  • Гиперпараметры, используемые для каждой модели машинного обучения, реализованной в рамках текущей работы:
  • Для решающего дерева были использованы гиперпараметры:
  • max_features – этот гиперпараметр ограничевает количество признаков, используемых для построения дерева решений. Значение sqrt означает, что будет использовано количество признаков, равное квадратному корню из общего количества признаков; Значение log...
  • max_depth – гиперпараметр, который регулирует глубину дерева решений: при значении None - глубина дерева не ограничена. Глубина ограничивает количество уровней (Уровень в дереве решений – это набор взаимосвязанных узлов, разделяющих пространство призн...
  • criterion - переметр, используемый для выбора оптимального разбиения в узлах дерева решений. Значение gini означает, что будет использован критерий Джини (он основан на коэффициенте Джини, который измеряет неоднородность распределения классов в узле: ...
  • Для случайного леса были использованы гиперпараметры:
  • criterion – был описан выше, в разрезе описания гиперпараметров для дерева решений.
  • n_estimators - количество деревьев, создаваемых в рамках модели случайного леса (большее количество деревьев повышает качество предсказаний, но при этом увеличивает время на обучение).
  • Для логистической регрессии были использованы гиперпараметры:
  • penalty - это гиперпараметр, который определяет тип регуляризации, который будет применен по отношению к модели, L1 или L2:
  • Выбор типа регуляризации зависит от специфики условий работы модели: L1 регуляризация наиболее эффективна, когда из множества переменных необходимо выделить наиболее влияющие на результат. L2 регуляризация эффективна в условиях, когда в данных много ш...
  • max_iter – критерий, устанавливающий максимальное количество итераций в ходе обучении модели. Если модель не сможет сходиться за данное количество итераций, то обучение прерывается.
  • Для SVR был использован гиперпараметр:
  • Для градиентного бустинга был использован гиперпараметр:
  • n_estimators – описанный ранее гиперпараметр (в описании параметров случайного леса).
  • Для настройки гиперпараметров моделей, использован алгоритм машинного обучения GridSearchCV:
  • Рисунок 35 – Метрики качества модели дерева решений в случае анализа России (разработано автором)
  • Значение F1-метрии у текущей модели равняется 0.658164, что указывает на среднюю точность модели, когда учитываются и ложные положительные, и ложные отрицательные результаты.
  • Значение ROC AUC - равняется 0.668949, что указывает на нормальное качество способности модели различать положительные и отрицательные результаты.
  • Точность в данном случае равняется 0.723130, что указывает на высокое качество работы модели при предсказании положительных результатов.
  • Значение полноты в данном случае равняется 0.633192. Это указывает на среднюю способность модели обнаруживать положительные результаты.
  • В разрезе анализа важности признаков результаты построения модели дерева решений продемонстрированы на рисунке 36:
  • Рисунок 36 – Важность признаков модели решающего дерева для России (разработано автором)
  • Наиболее важным признаком для дерева решений в данном случае является процентное изменение инфляции. Высокие значения этой переменной указывают на положительный класс, в то время как нейтральные и низкие – на отрицательный. Ключевая ставка в текущей м...
  • Следующая реализованная модель для данных по России – случайный лес, результаты которого представлены на рисунке 37.
  • Рисунок 37 - Метрики качества модели случайного леса в случае анализа России (разработано автором)
  • Значение F1 равняется 0.699548, это указывает на среднюю точность модели, когда учитываются ложно-положительные и ложно-отрицательные результаты.
  • ROC AUC в данном случае равняется 0.718559, что указывает на среднюю способность модели различать положительные и отрицательные результаты.
  • Значение точности равняется 0.706985. Это означает, что точность модели при предсказании положительных результатов достаточно высока.
  • Значение полноты в данном случае равняется 0.710359, что указывает на хорошую способность модели обнаруживать положительные результаты.
  • Анализ важности признаков по модели случайного леса в случае анализа опыта России представлен на рисунке 38:
  • Рисунок 38 - Важность признаков модели случайного леса для России (разработано автором)
  • Самое большое влияние имеет индекс деловой активности, где положительные и нейтральные значения указывают на положительный класс, в то время как низкие значения - на отрицательный класс. Наименьшим влиянием на целевую переменную в модели случайного ле...
  • Следующая модель – логистическая регрессия, ее метрики показаны на рисунке 39.
  • Рисунок 39 - Метрики качества модели логистической регрессии в случае анализа России (разработано автором)
  • Важность признаков модели логистической регрессии отображена на рисунке 40:
  • Рисунок 40 - Важность признаков модели логистической регрессии для России (разработано автором)
  • Значения атрибутов имеют одинаковый тип влияния - высокие значения указывают на отрицательный класс, в то время как низкие на положительный класс.
  • Далее был реализован алгоритм SVR, его метрики приведены ниже на рисунке 41:
  • Рисунок 41 - Метрики качества модели опорных векторов в случае анализа России (разработано автором)
  • Рисунок 42 - Важность признаков модели опорных векторов для России (разработано автором)
  • Алгоритм градиентного бустинга показал следующие метрики, при его реализации на данных экономики России (рисунок 43):
  • Рисунок 43 - Метрики качества модели градиентного бустинга в случае анализа России (разработано автором)
  • Анализ вклада независимых переменных в разрезе модели градиентного бустинга представлен на рисунке 44:
  • Рисунок 44 - Важность признаков модели градиентного бустинга для России (разработано автором)
  • Далее будут представлены результаты построения моделей машинного обучения для Китая.
  • Алгоритм дерева решений показал метрики качества, представленные на рисунке 45:
  • Рисунок 45 - Метрики качества модели дерева решений в случае анализа Китая (разработано автором)
  • Precision для модели составляет 0.856949, что говорит о высокую точность модели при предсказании положительных результатов. Отметим более высокие метрики качества модели в сравнении с российским опытом.
  • Анализ переменных в разрезе важности для предсказания класса целевой переменной по текущей модели представлен на рисунке 46:
  • Рисунок 46 - Важность признаков модели решающего дерева для Китая (разработано автором)
  • Остальные признаки имеют приблизительно одинаковый вклад в прогноз модели. Более низкие значения признаков предсказывают отрицательный класс, в то время как положительные предсказывают положительный класс.
  • Далее рассмотрим результаты работы случайного леса на данных по китайской экономике (рисунок 47):
  • Рисунок 47 - Метрики качества модели случайного леса в случае анализа Китая (разработано автором)
  • Метрика точности для нашей модели составляет 0.856949, что говорит о высокой точности модели при предсказании положительных результатов. Это означает, что из всех предсказанных положительных результатов большинство действительно является положительными.
  • Важность признаков для текущей модели продемонстрирована на рисунке 48:
  • Рисунок 48 - Важность признаков модели случайного леса для Китая (разработано автором)
  • Остальные признаки имеют менее существенный вклад в прогноз.
  • В ходе реализации на данных по Китаю модель логистической регрессии были получены метрики, представленные на рисунке 49:
  • Рисунок 49 - Метрики качества модели логистической регрессии в случае анализа Китая (разработано автором)
  • Метрика точности для модели составляет 0.866651, что говорит о высокой точности модели при предсказании положительных результатов. Это означает, что из всех предсказанных положительных результатов большинство истинно является положительными.
  • Результаты оценки важности вклада независимых переменных в результат модели логистической регрессии в рамках данных китайской экономики, отражены на рисунке 50:
  • Рисунок 50 - Важность признаков модели логистической регрессии для Китая (разработано автором)
  • Другие признаки имеют примерно одинаковые вклад в прогноз модели, где положительные значения данных атрибутов указывают на отрицательный класс, в то время как низкие показатели указывают на положительный класс.
  • Результаты работы модели SVR по данным Китая представлены на рисунке 51.
  • Рисунок 51 - Метрики качества модели опорных векторов в случае анализа Китая (разработано автором)
  • Метрика точности для модели составляет 0.922964, что является свидетельством высокой точности модели при предсказании положительных результатов.
  • Анализ независимых переменных на предмет важности для текущей модели машинного обучения (рисунок 52):
  • Рисунок 52 - Важность признаков модели опорных векторов для Китая (разработано автором).
  • Другие признаки имеют примерно одинаковый вклад в прогноз модели, где положительные значения данных атрибутов указывают на отрицательный класс, в то время как низкие показатели указывают на положительный класс.
  • Метрики качества модели градиентного бустинга в рамках работы по данным китайской экономике представлены на рисунке 53:
  • Рисунок 53 - Метрики качества модели градиентного бустинга в случае анализа Китая (разработано автором)
  • Точность для модели составляет 0.822318, что говорит о высокой точности модели при предсказании положительных результатов.
  • Важность признаков по модели градиентного бустинга представлена на рисунке 54:
  • Рисунок 54 - Важность признаков модели градиентного бустинга для Китая (разработано автором)
  • Далее будут представлены результаты построения моделей машинного обучения для США.
  • Построенная в рамках работы с данными по экономике США модель решающего дерева, обладает следующими метриками (рисунок 55):
  • Рисунок 55 - Метрики качества модели дерева решений в случае анализа США (разработано автором)
  • Метрика precision для модели составляет 0.654483, что говорит о нормальной точности модели при предсказании положительных результатов.
  • Важность признаков текущей модели представлена на рисунке 56:
  • Рисунок 56 - Важность признаков модели решающего дерева для США (разработано автором)
  • CPIAUCSL Change % имеет наименьший разброс значений, что может свидетельствовать о его менее переменном и значительном воздействии на модель. Большинство точек находится в узком диапазоне, что указывает на стабильное, но невысокое влияние на результат...
  • В результате работы алгоритма случайного леса по данным американской экономики, были получены следующие результаты (рисунок 57):
  • Рисунок 57 - Метрики качества модели случайного леса в случае анализа США (разработано автором)
  • Метрика точности для модели составляет 0.632425, что говорит о средней точности модели при предсказании положительных результатов.
  • Важность признаков для данной модели продемонстрирована на рисунке 58:
  • Рисунок 58 - Важность признаков модели случайного леса для США (разработано автором)
  • FEDFUNDS Change % и CPIAUCSL Change % показывают относительно узкий разброс значений. Они оказывают более ограниченное влияние на предсказания модели, что видно из меньшей амплитуды их SHAP значений.
  • Метод опорных векторов (SVC) на американских данных дал следующий результат (рисунок 59):
  • Рисунок 59 - Метрики качества модели логистической регрессии в случае анализа США (разработано автором)
  • Метрика точности для модели составляет 0.624832, что говорит о средней точности модели при предсказании положительных результатов.
  • Важность признаков для текущей модели (рисунок 60):
  • Рисунок 60 - Важность признаков модели логистической регрессии для США (разработано автором)
  • Точки для PMI Change % располагаются в основном слева от нулевой линии, что указывает на отрицательное влияние на модель, особенно при высоких значениях признака.
  • Модель SVC обладает следующими метриками, в контексте работы с данными по экономике США (рисунок 61):
  • Рисунок 61 - Метрики качества модели опорных векторов в случае анализа США (разработано автором)
  • Точность для модели составляет 0.631208, что говорит о средней точности модели при предсказании положительных результатов.
  • Важность признаков для SVC представлена на рисунке 62:
  • Рисунок 62 - Важность признаков модели опорных векторов для США (разработано автором)
  • PMI Change % практически не имеет вклада.
  • Работа алгоритма градиентного бустинга в разрезе данных по США характеризуется следующими метриками, представленными на рисунке 63:
  • Рисунок 63 - Метрики качества модели градиентного бустинга в случае анализа США (разработано автором)
  • Precision для модели равен 0.626005, что говорит о средней точности модели при предсказании положительных результатов.
  • Важность признаков для градиентного бустинга на основе данных американской экономики представлена на рисунке 64:
  • Рисунок 64 - Важность признаков модели градиентного бустинга для США (разработано автором)
  • 3.3 Интерпретация и сравнительный анализ полученных результатов
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Статистика использования

stat Количество обращений: 0
За последние 30 дней: 0
Подробная статистика