Details

Title: Аналитика экономических процессов методами комплекснозначной экономики: выпускная квалификационная работа бакалавра: 38.03.05 - Бизнес-информатика
Creators: Барыев Дмитрий Викторович
Scientific adviser: Светуньков Сергей Геннадьевич
Other creators: Багаева Ирина Владимировна
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт промышленного менеджмента, экономики и торговли
Imprint: Санкт-Петербург, 2019
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: машинное обучение; фондовые биржи; Twitter; нейролингвистическое программирование; ETL; анализ тональности текста; большие данные; комплекснозначная эконометрика; Mongo DB; Spark; Python; machine learning; sentiment analysis; NLP; complex-valued econometrics; stock markets; Big Data
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 38.03.05
Speciality group (FGOS): 380000 - Экономика и управление
Links: Отзыв руководителя; Отчет о проверке на объем и корректность внешних заимствований
DOI: 10.18720/SPBPU/3/2019/vr/vr19-5101
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Record key: ru\spstu\vkr\4620

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Теория комплекснозначной эконометрики позволяет создавать качественно новые признаки, которые можно использовать в алгоритмах машинного обучения. В данной работе демонстрируется задача определения долгосрочной зависимости будущих цен акций компаний от сгенерированного временного признака – вычисляемого коэффициента тональности, получаемого методами семантического анализа текстов из социальных сетей. Данные собирались с платформы Twitter с использованием Big Data ETL-сценариев. Полученные наборы данных были использованы для обучения специализированных алгоритмов машинного обучения, предназначенных для работы с технологиями больших данных. Семантический коэффициент рассчитывался ежедневно на основе агрегированных оценок с дальнейшим применением методов комплекснозначной эконометрики. Для демонстрации нового подхода к созданию признаков, была построена модель комплекснозначной линейной регрессии, основанной на семантических коэффициентах и показателях фондовых рынков. Результат, полученный новым подходом, был сравнен с существующими решениями с точки зрения точности. Наконец, мы демонстрируем возможный путь воздействия на улучшения существующих алгоритмов для торговых стратегий с использованием комплексной регрессии.

Theory of complex-valued econometrics makes it possible to generate qualitatively new features that can be used in machine learning algorithms. Our study reveals the task of determining the long-term dependence of future companies’ stocks prices on a time-generated feature – a calculated tonality coefficient gained by methods of semantic analysis of texts from social networks. Data was gathered from Twitter platform with the use of Big Data ETL-scenarios. The resulting data sets were used to train machine learning algorithms designed to work with Big Data technologies. A semantic coefficient was calculated on the basics of aggregated estimates for each day, with the further application of the methods of complex-valued econometrics. To demonstrate the new approach of feature generation a complex-valued linear regression model based on the semantic coefficients and stock markets data was constructed. The outcome obtained by new approach was compared to existing solutions in terms of accuracy and. Finally, we demonstrate a possible route for impact in improvements of the existing algorithms for trading strategies using the complex-valued regression.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Usage statistics

stat Access count: 38
Last 30 days: 0
Detailed usage statistics