Details
Title | Создание инструментария для извлечения фенотипических данных из текстов статей: выпускная квалификационная работа бакалавра: направление 12.03.04 «Биотехнические системы и технологии» ; образовательная программа 12.03.04_01 «Биомедицинские системы» |
---|---|
Creators | Круглова Софья Михайловна |
Scientific adviser | Макашов Андрей Андреевич |
Organization | Санкт-Петербургский политехнический университет Петра Великого. Институт биомедицинских систем и биотехнологий |
Imprint | Санкт-Петербург, 2025 |
Collection | Выпускные квалификационные работы ; Общая коллекция |
Subjects | штамм ; LLM ; YandexGPT ; SDK ; инструментарий ; strain ; toolkit |
Document type | Bachelor graduation qualification work |
File type | |
Language | Russian |
Level of education | Bachelor |
Speciality code (FGOS) | 12.03.04 |
Speciality group (FGOS) | 120000 - Фотоника, приборостроение, оптические и биотехнические системы и технологии |
DOI | 10.18720/SPBPU/3/2025/vr/vr25-1329 |
Rights | Доступ по паролю из сети Интернет (чтение, печать, копирование) |
Additionally | New arrival |
Record key | ru\spstu\vkr\36927 |
Record create date | 8/22/2025 |
Allowed Actions
–
Action 'Read' will be available if you login or access site from another network
Action 'Download' will be available if you login or access site from another network
Group | Anonymous |
---|---|
Network | Internet |
Работа посвящена разработке инструментария для автоматического извлечения информации о бактериальных штаммах и их атрибутах из научных публикаций с использованием языковой модели YandexGPT. В рамках исследования были автоматизированы процессы скачивания полнотекстовых статей из базы данных PubMed Central, их конвертация в формат Markdown, удобный для анализа. Были использованы скрипты на Python и инструмент Yandex Cloud ML SDK для взаимодействия с моделью YandexGPT, включая формирование промптов, обработку ответов и формализацию данных. Для первичной валидации результатов был создан тестовый датасет на основе базы данных NCBI, включающий информацию о штаммах рода Bacillus. Проведено сопоставление результатов, полученных с помощью модели, с эталонной таблицей вручную размеченных данных, ведь тестовый датасет оказался ненадежным источником информации. Разработанный инструментарий продемонстрировал способность извлекать релевантную фенотипическую информацию с уровнем точности, достаточным для последующего использования в аналитических целях. Применение предложенного подхода позволяет сократить временные и трудозатраты на обработку текстов микробиологических данных, что может быть активно использовано в эпидемиологии, экологии и микробной биоинформатике.
This work focuses on developing a toolkit that automatically extracts information about bacterial strains and their attributes from scientific publications using the YandexGPT language model. The research automates the processes of downloading full-text articles from the PubMed Central database and converting them into a Markdown format that is convenient for analysis. Python scripts and the Yandex Cloud ML SDK tool were used to interact with the YandexGPT model for prompt generation, response processing, and data formalization. To validate the results initially, a test dataset was created based on the NCBI database, including information on Bacillus strains. Because the test dataset proved to be an unreliable source of information, the results obtained by the model were compared with a reference table of manually labeled data. The toolkit demonstrated the ability to extract relevant phenotypic information with sufficient accuracy for further analytical use. The proposed approach reduces the time and labor costs associated with processing microbiological data, making it useful in epidemiology, ecology, and microbial bioinformatics.
Network | User group | Action |
---|---|---|
ILC SPbPU Local Network | All |
|
Internet | Authorized users SPbPU |
|
Internet | Anonymous |
|
Access count: 0
Last 30 days: 0