Детальная информация

Название Оптимизация выбора признаков в задачах классификации и анализа экспрессии генов: выпускная квалификационная работа бакалавра: направление 01.03.02 «Прикладная математика и информатика» ; образовательная программа 01.03.02_04 «Биоинформатика»
Авторы Волгузов Артем Юрьевич
Научный руководитель Родионова Елена Александровна
Организация Санкт-Петербургский политехнический университет Петра Великого. Физико-механический институт
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика выбор признаков ; экспрессия генов ; классификация данных ; алгоритм светлячков ; метод опорных векторов ; feature selection ; gene expression ; data classification ; firefly algorithm ; support vector machines
Тип документа Выпускная квалификационная работа бакалавра
Тип файла PDF
Язык Русский
Уровень высшего образования Бакалавриат
Код специальности ФГОС 01.03.02
Группа специальностей ФГОС 010000 - Математика и механика
DOI 10.18720/SPBPU/3/2025/vr/vr25-2550
Права доступа Доступ по паролю из сети Интернет (чтение, печать)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\36983
Дата создания записи 28.08.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Работа посвящена разработке и оценке эффективности гибридного алгоритма BFA-LS для оптимизации выбора признаков при классификации данных экспрессии генов методом опорных векторов. Алгоритм интегрирует бинарный алгоритм светлячков для глобального поиска признаков с процедурой локального поиска для итеративного улучшения решений. Ключевая задача – отбор наиболее информативных и компактных генных подмножеств для повышения точности и интерпретируемости классификационных моделей. Гибридный подход BFA-LS был сконструирован, реализован и протестирован на наборах данных экспрессии генов lung, colon, leukemia1. Качество классификации и отбора признаков оценивалось SVM, кросс-валидацией Leave-One-Out и сравнением с базовыми стратегиями. Оптимальные гиперпараметры определялись Grid Search. BFA-LS показал высокую результативность: точность 100% на данных lung при 2 признаках и leukemia1 при 8 признаках, и 93.55% на данных colon при 5 признаках. Биологическая интерпретация отобранных генных сигнатур показала их связь с патогенезом онкозаболеваний, подтверждая потенциал для идентификации значимых биомаркеров. Полученные результаты могут быть использованы для построения высокоточных и интерпретируемых моделей классификации в биомедицинских приложениях. Планируется апробация подхода на более широком круге данных и сравнение с другими методами отбора признаков.

This work focuses on the development and performance evaluation of the BFA-LS hybrid algorithm for feature selection optimization in gene expression data classification using Support Vector Machines (SVM). The algorithm integrates the Binary Firefly Algorithm (BFA) for global feature search with a Local Search (LS) procedure for iterative solution improvement. The key objective is the selection of the most informative and compact gene subsets to enhance the accuracy and interpretability of classification models. The BFA-LS hybrid approach was designed, implemented, and tested on lung, colon, and leukemia1 gene expression datasets. The quality of classification and feature selection was assessed using SVM, Leave-One-Out Cross-Validation (LOOCV), and comparison with baseline strategies. Optimal hyperparameters were determined by Grid Search. BFA-LS demonstrated high performance: 100% accuracy on the lung dataset with 2 features and the leukemia1 dataset with 8 features, and 93.55% on the colon dataset with 5 features. Biological interpretation of the selected gene signatures revealed their association with the pathogenesis of oncological diseases, confirming the potential for identifying significant biomarkers. The obtained results can be used to build highly accurate and interpretable classification models in biomedical applications. Further testing of the approach on a wider range of data and comparison with other feature selection methods is planned.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать
Интернет Авторизованные пользователи СПбПУ
Прочитать Печать
Интернет Анонимные пользователи
  • Оптимизация выбора признаков в задачах классификации и анализа экспрессии генов
    • Введение
    • 1. Обзор существующих решений и методов
    • 2. Постановка задачи и описание подхода
    • 3. Программная реализация и методология экспериментального исследования
    • 4. Результаты и их сравнительный анализ
    • 5. Биологическая интерпретация и выводы
    • Заключение
    • Список использованных источников
    • Приложение 1. Полные результаты Grid Search

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика