Details

Title Создание инструментария для извлечения фенотипических данных из текстов статей: выпускная квалификационная работа бакалавра: направление 12.03.04 «Биотехнические системы и технологии» ; образовательная программа 12.03.04_01 «Биомедицинские системы»
Creators Круглова Софья Михайловна
Scientific adviser Макашов Андрей Андреевич
Organization Санкт-Петербургский политехнический университет Петра Великого. Институт биомедицинских систем и биотехнологий
Imprint Санкт-Петербург, 2025
Collection Выпускные квалификационные работы ; Общая коллекция
Subjects штамм ; LLM ; YandexGPT ; SDK ; инструментарий ; strain ; toolkit
Document type Bachelor graduation qualification work
File type PDF
Language Russian
Level of education Bachelor
Speciality code (FGOS) 12.03.04
Speciality group (FGOS) 120000 - Фотоника, приборостроение, оптические и биотехнические системы и технологии
DOI 10.18720/SPBPU/3/2025/vr/vr25-1329
Rights Доступ по паролю из сети Интернет (чтение, печать, копирование)
Additionally New arrival
Record key ru\spstu\vkr\36927
Record create date 8/22/2025

Allowed Actions

Action 'Read' will be available if you login or access site from another network

Action 'Download' will be available if you login or access site from another network

Group Anonymous
Network Internet

Работа посвящена разработке инструментария для автоматического извлечения информации о бактериальных штаммах и их атрибутах из научных публикаций с использованием языковой модели YandexGPT. В рамках исследования были автоматизированы процессы скачивания полнотекстовых статей из базы данных PubMed Central, их конвертация в формат Markdown, удобный для анализа. Были использованы скрипты на Python и инструмент Yandex Cloud ML SDK для взаимодействия с моделью YandexGPT, включая формирование промптов, обработку ответов и формализацию данных. Для первичной валидации результатов был создан тестовый датасет на основе базы данных NCBI, включающий информацию о штаммах рода Bacillus. Проведено сопоставление результатов, полученных с помощью модели, с эталонной таблицей вручную размеченных данных, ведь тестовый датасет оказался ненадежным источником информации. Разработанный инструментарий продемонстрировал способность извлекать релевантную фенотипическую информацию с уровнем точности, достаточным для последующего использования в аналитических целях. Применение предложенного подхода позволяет сократить временные и трудозатраты на обработку текстов микробиологических данных, что может быть активно использовано в эпидемиологии, экологии и микробной биоинформатике.

This work focuses on developing a toolkit that automatically extracts information about bacterial strains and their attributes from scientific publications using the YandexGPT language model. The research automates the processes of downloading full-text articles from the PubMed Central database and converting them into a Markdown format that is convenient for analysis. Python scripts and the Yandex Cloud ML SDK tool were used to interact with the YandexGPT model for prompt generation, response processing, and data formalization. To validate the results initially, a test dataset was created based on the NCBI database, including information on Bacillus strains. Because the test dataset proved to be an unreliable source of information, the results obtained by the model were compared with a reference table of manually labeled data. The toolkit demonstrated the ability to extract relevant phenotypic information with sufficient accuracy for further analytical use. The proposed approach reduces the time and labor costs associated with processing microbiological data, making it useful in epidemiology, ecology, and microbial bioinformatics.

Network User group Action
ILC SPbPU Local Network All
Read Print Download
Internet Authorized users SPbPU
Read Print Download
Internet Anonymous

Access count: 0 
Last 30 days: 0

Detailed usage statistics