Детальная информация

Название Создание инструментария для извлечения фенотипических данных из текстов статей: выпускная квалификационная работа бакалавра: направление 12.03.04 «Биотехнические системы и технологии» ; образовательная программа 12.03.04_01 «Биомедицинские системы»
Авторы Круглова Софья Михайловна
Научный руководитель Макашов Андрей Андреевич
Организация Санкт-Петербургский политехнический университет Петра Великого. Институт биомедицинских систем и биотехнологий
Выходные сведения Санкт-Петербург, 2025
Коллекция Выпускные квалификационные работы ; Общая коллекция
Тематика штамм ; LLM ; YandexGPT ; SDK ; инструментарий ; strain ; toolkit
Тип документа Выпускная квалификационная работа бакалавра
Тип файла PDF
Язык Русский
Уровень высшего образования Бакалавриат
Код специальности ФГОС 12.03.04
Группа специальностей ФГОС 120000 - Фотоника, приборостроение, оптические и биотехнические системы и технологии
DOI 10.18720/SPBPU/3/2025/vr/vr25-1329
Права доступа Доступ по паролю из сети Интернет (чтение, печать, копирование)
Дополнительно Новинка
Ключ записи ru\spstu\vkr\36927
Дата создания записи 22.08.2025

Разрешенные действия

Действие 'Прочитать' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Действие 'Загрузить' будет доступно, если вы выполните вход в систему или будете работать с сайтом на компьютере в другой сети

Группа Анонимные пользователи
Сеть Интернет

Работа посвящена разработке инструментария для автоматического извлечения информации о бактериальных штаммах и их атрибутах из научных публикаций с использованием языковой модели YandexGPT. В рамках исследования были автоматизированы процессы скачивания полнотекстовых статей из базы данных PubMed Central, их конвертация в формат Markdown, удобный для анализа. Были использованы скрипты на Python и инструмент Yandex Cloud ML SDK для взаимодействия с моделью YandexGPT, включая формирование промптов, обработку ответов и формализацию данных. Для первичной валидации результатов был создан тестовый датасет на основе базы данных NCBI, включающий информацию о штаммах рода Bacillus. Проведено сопоставление результатов, полученных с помощью модели, с эталонной таблицей вручную размеченных данных, ведь тестовый датасет оказался ненадежным источником информации. Разработанный инструментарий продемонстрировал способность извлекать релевантную фенотипическую информацию с уровнем точности, достаточным для последующего использования в аналитических целях. Применение предложенного подхода позволяет сократить временные и трудозатраты на обработку текстов микробиологических данных, что может быть активно использовано в эпидемиологии, экологии и микробной биоинформатике.

This work focuses on developing a toolkit that automatically extracts information about bacterial strains and their attributes from scientific publications using the YandexGPT language model. The research automates the processes of downloading full-text articles from the PubMed Central database and converting them into a Markdown format that is convenient for analysis. Python scripts and the Yandex Cloud ML SDK tool were used to interact with the YandexGPT model for prompt generation, response processing, and data formalization. To validate the results initially, a test dataset was created based on the NCBI database, including information on Bacillus strains. Because the test dataset proved to be an unreliable source of information, the results obtained by the model were compared with a reference table of manually labeled data. The toolkit demonstrated the ability to extract relevant phenotypic information with sufficient accuracy for further analytical use. The proposed approach reduces the time and labor costs associated with processing microbiological data, making it useful in epidemiology, ecology, and microbial bioinformatics.

Место доступа Группа пользователей Действие
Локальная сеть ИБК СПбПУ Все
Прочитать Печать Загрузить
Интернет Авторизованные пользователи СПбПУ
Прочитать Печать Загрузить
Интернет Анонимные пользователи

Количество обращений: 0 
За последние 30 дней: 0

Подробная статистика