Details

Title: Прогноз качества вина на основе химических компонентов и отзывов клиентов: выпускная квалификационная работа бакалавра: направление 09.03.04 «Программная инженерия» ; образовательная программа 09.03.04_01 «Технология разработки и сопровождения качественного программного продукта»
Creators: Марфина Валерия Олеговна
Scientific adviser: Дробинцев Дмитрий Федорович
Organization: Санкт-Петербургский политехнический университет Петра Великого. Институт компьютерных наук и кибербезопасности
Imprint: Санкт-Петербург, 2024
Collection: Выпускные квалификационные работы; Общая коллекция
Subjects: машинное обучение; качество вина; случайный лес; Flask; Pandas; Matplotlib; machine learning; wine quality; random forest
Document type: Bachelor graduation qualification work
File type: PDF
Language: Russian
Level of education: Bachelor
Speciality code (FGOS): 09.03.04
Speciality group (FGOS): 090000 - Информатика и вычислительная техника
DOI: 10.18720/SPBPU/3/2024/vr/vr24-1795
Rights: Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally: New arrival
Record key: ru\spstu\vkr\28839

Allowed Actions:

Action 'Read' will be available if you login or access site from another network Action 'Download' will be available if you login or access site from another network

Group: Anonymous

Network: Internet

Annotation

Цель работы – разработка системы прогнозирования качества вина на основе его химических характеристик и отзывов клиентов с применением методов машинного обучения. Это позволит виноделам улучшить качество продукции и оптимизировать бизнес-процессы. Задачи, которые решались в ходе работы: 1. Сбор и предварительная обработка данных. 2. Построение и обучение модели случайного леса для прогнозирования качества вина. 3. Оценка эффективности модели с использованием различных метрик. 4. Разработка веб-приложения для демонстрации работы модели и прогнозирования качества вина на основе пользовательских данных. Построенная модель случайного леса показала высокую точность и стабильность предсказаний, что подтверждается значением средней recall на уровне 0.92 и тестовой recall на уровне 0.95. Модель случайного леса учитывает нелинейные зависимости между химическими параметрами вина и его качеством, что позволяет достичь более точных предсказаний. Матрица конфузии показала, что модель правильно классифицировала большинство образцов, минимизируя как ложноположительные, так и ложноотрицательные результаты. Для визуализации и анализа данных использовались библиотеки Pandas и Matplotlib. Приложение предоставляет производителям возможность своевременно реагировать на прогнозы, включая усиление маркетинговых усилий в случае низкого качества продукции. Например, если прогноз показывает, что качество вина ниже ожидаемого, производитель может вложить больше средств в рекламные кампании, чтобы повысить продажи. Кроме того, анализ данных позволяет выявлять ключевые факторы, влияющие на качество вина, и вносить соответствующие изменения в процесс производства. Это способствует улучшению общей эффективности бизнеса и помогает производителям оставаться конкурентоспособными на рынке.

The aim of the work is to develop a system for predicting the quality of wine based on its chemical characteristics and customer reviews using machine learning methods. This will allow winemakers to improve product quality and optimize business processes. Tasks addressed during the work: 1. Data collection and preprocessing. 2. Building and training a random forest model for predicting wine quality. 3. Evaluating the effectiveness of the model using various metrics. 4. Developing a web application to demonstrate the models functionality and predict wine quality based on user input. The constructed random forest model demonstrated high accuracy and stability in predictions, as evidenced by an average recall of 0.92 and a test recall of 0.95. The random forest model accounts for nonlinear dependencies between the chemical parameters of wine and its quality, enabling more accurate predictions. The confusion matrix showed that the model correctly classified most samples, minimizing both false positives and false negatives. Pandas and Matplotlib libraries were used for data visualization and analysis. The application provides producers with the opportunity to respond promptly to predictions, including enhancing marketing efforts in the event of low product quality. For example, if the prediction indicates that the wine quality is below expectations, the producer can invest more in advertising campaigns to boost sales. Additionally, data analysis allows identifying key factors affecting wine quality and making appropriate adjustments to the production process. This contributes to improving overall business efficiency and helps producers remain competitive in the market.

Document access rights

Network User group Action
ILC SPbPU Local Network All Read Print Download
Internet Authorized users SPbPU Read Print Download
-> Internet Anonymous

Table of Contents

  • ВВЕДЕНИЕ
  • АКТУАЛЬНОСТЬ РАБОТЫ
  • ГЛАВА 1. ВЫБОР ИНСТРУМЕНТАРИЯ И ЯЗЫКА ПРОГРАММИРОВАНИЯ
    • 1.1. Основной язык программирования
    • 1.2. Библиотека NumPy
    • 1.3. Библиотека Pandas
    • 1.4. Библиотека Matplotlib
    • 1.5. Библиотека Seaborn
  • ГЛАВА 2. ОПИСАНИЕ И РЕАЛИЗАЦИЯ КЛАССИЧЕСКОЙ СТАТИСТИЧЕСКОЙ МОДЕЛИ
    • 2.1. Набор данных
    • 2.2. Источник данных
    • 2.3. Предварительная обработка данных
    • 2.4. Анализ данных
    • 2.5. Корреляционный анализ и мультиколлинеарность
    • 2.6. Модель логистической регрессии
  • ГЛАВА 3. ОПИСАНИЕ И РЕАЛИЗАЦИЯ МОДЕЛИ НЕЙРОННОЙ СЕТИ
    • 3.1. Статистическая модель как фундамент для разработки нейронной сети
    • 3.2. Преимущества использования нейронных сетей
    • 3.3. Описание используемой нейронной сети
    • 3.4. Принципы работы MLP
    • 3.5. Модель нейронной сети
  • ГЛАВА 4. ОСОБЕННОСТИ ВЫБОРА И ИСПОЛЬЗОВАНИЯ МОДЕЛИ ОЦЕНКИ КАЧЕСТВА ВИНА
  • ГЛАВА 5. РЕАЛИЗАЦИЯ ПРИЛОЖЕНИЯ
    • 5.1. Flask
    • 5.2. Руководство пользователя для веб-приложения предсказания качества вина
    • 5.2. Рекомендации по улучшению качества вина
    • 5.3. Потенциальные применения и бизнес-ценность модели
  • ЗАКЛЮЧЕНИЕ
  • СПИСОК ЛИТЕРАТУРЫ

Usage statistics

stat Access count: 0
Last 30 days: 0
Detailed usage statistics