Создание инструментария для извлечения фенотипических данных из текстов статей: выпускная квалификационная работа бакалавра: направление 12.03.04 «Биотехнические системы и технологии» ; образовательная программа 12.03.04_01 «Биомедицинские системы»

Круглова, Софья Михайловна

Details

Title	Создание инструментария для извлечения фенотипических данных из текстов статей: выпускная квалификационная работа бакалавра: направление 12.03.04 «Биотехнические системы и технологии» ; образовательная программа 12.03.04_01 «Биомедицинские системы»
Creators	Круглова Софья Михайловна
Scientific adviser	Макашов Андрей Андреевич
Organization	Санкт-Петербургский политехнический университет Петра Великого. Институт биомедицинских систем и биотехнологий
Imprint	Санкт-Петербург, 2025
Collection	Выпускные квалификационные работы ; Общая коллекция
Subjects	штамм ; LLM ; YandexGPT ; SDK ; инструментарий ; strain ; toolkit
Document type	Bachelor graduation qualification work
File type	PDF
Language	Russian
Level of education	Bachelor
Speciality code (FGOS)	12.03.04
Speciality group (FGOS)	120000 - Фотоника, приборостроение, оптические и биотехнические системы и технологии
DOI	10.18720/SPBPU/3/2025/vr/vr25-1329
Rights	Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally	New arrival
Record key	ru\spstu\vkr\36927
Record create date	8/22/2025

Allowed Actions

–

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group	Anonymous
Network	Internet

Работа посвящена разработке инструментария для автоматического извлечения информации о бактериальных штаммах и их атрибутах из научных публикаций с использованием языковой модели YandexGPT. В рамках исследования были автоматизированы процессы скачивания полнотекстовых статей из базы данных PubMed Central, их конвертация в формат Markdown, удобный для анализа. Были использованы скрипты на Python и инструмент Yandex Cloud ML SDK для взаимодействия с моделью YandexGPT, включая формирование промптов, обработку ответов и формализацию данных. Для первичной валидации результатов был создан тестовый датасет на основе базы данных NCBI, включающий информацию о штаммах рода Bacillus. Проведено сопоставление результатов, полученных с помощью модели, с эталонной таблицей вручную размеченных данных, ведь тестовый датасет оказался ненадежным источником информации. Разработанный инструментарий продемонстрировал способность извлекать релевантную фенотипическую информацию с уровнем точности, достаточным для последующего использования в аналитических целях. Применение предложенного подхода позволяет сократить временные и трудозатраты на обработку текстов микробиологических данных, что может быть активно использовано в эпидемиологии, экологии и микробной биоинформатике.

This work focuses on developing a toolkit that automatically extracts information about bacterial strains and their attributes from scientific publications using the YandexGPT language model. The research automates the processes of downloading full-text articles from the PubMed Central database and converting them into a Markdown format that is convenient for analysis. Python scripts and the Yandex Cloud ML SDK tool were used to interact with the YandexGPT model for prompt generation, response processing, and data formalization. To validate the results initially, a test dataset was created based on the NCBI database, including information on Bacillus strains. Because the test dataset proved to be an unreliable source of information, the results obtained by the model were compared with a reference table of manually labeled data. The toolkit demonstrated the ability to extract relevant phenotypic information with sufficient accuracy for further analytical use. The proposed approach reduces the time and labor costs associated with processing microbiological data, making it useful in epidemiology, ecology, and microbial bioinformatics.

Network	User group	Action
ILC SPbPU Local Network	All
Internet	Authorized users SPbPU
Internet	Anonymous

Access count: 0
Last 30 days: 0

Detailed usage statistics