От эксплуатации к защите: анализ атак на большие языковые модели

Величко, И. С.; Беззатеев, С. В.

Details

Title	От эксплуатации к защите: анализ атак на большие языковые модели // Проблемы информационной безопасности. Компьютерные системы. – 2025. – № 1. — С. 43-58
Creators	Величко И. С. ; Беззатеев С. В.
Imprint	2025
Collection	Общая коллекция
Subjects	Вычислительная техника ; Программирование ЭВМ. Компьютерные программы. Программотехника ; языковые модели ; большие языковые модели ; искусственный интеллект ; состязательные компьютерные атаки ; методы информационной защиты ; информационная безопасность ; конфиденциальные данные ; вредоносные инструкции ; explainability of concepts ; interpretability of concepts ; artificial intelligence systems ; causality ; machine learning ; machine learning models
UDC	004.41/42
LBC	32.973
Document type	Article, report
File type	Other
Language	Russian
DOI	10.48612/jisp/mbvv-n1u7-z7be
Additionally	New arrival
Record key	RU\SPSTU\edoc\75652
Record create date	4/4/2025

Современные большие языковые модели обладают впечатляющими возможностями, но остаются уязвимыми перед различными атаками, способными манипулировать их ответами, приводить к утечке конфиденциальных данных или обходить запреты. Основное внимание уделяется анализу атак типа "инъекция промпта" (prompt injection), позволяющих обойти ограничения модели, извлечь скрытые данные или заставить ее следовать вредоносным инструкциям.

Modern large language models possess impressive capabilities but remain vulnerable to various attacks that can manipulate their responses, lead to leakage of confidential data, or bypass restrictions. This paper focuses on the analysis of prompt injection attacks, which allow bypassing model constraints, extracting hidden data, or forcing the model to follow malicious instructions.