Details
Title | От эксплуатации к защите: анализ атак на большие языковые модели // Проблемы информационной безопасности. Компьютерные системы. – 2025. – № 1. — С. 43-58 |
---|---|
Creators | Величко И. С. ; Беззатеев С. В. |
Imprint | 2025 |
Collection | Общая коллекция |
Subjects | Вычислительная техника ; Программирование ЭВМ. Компьютерные программы. Программотехника ; языковые модели ; большие языковые модели ; искусственный интеллект ; состязательные компьютерные атаки ; методы информационной защиты ; информационная безопасность ; конфиденциальные данные ; вредоносные инструкции ; explainability of concepts ; interpretability of concepts ; artificial intelligence systems ; causality ; machine learning ; machine learning models |
UDC | 004.41/42 |
LBC | 32.973 |
Document type | Article, report |
File type | Other |
Language | Russian |
DOI | 10.48612/jisp/mbvv-n1u7-z7be |
Additionally | New arrival |
Record key | RU\SPSTU\edoc\75652 |
Record create date | 4/4/2025 |
Современные большие языковые модели обладают впечатляющими возможностями, но остаются уязвимыми перед различными атаками, способными манипулировать их ответами, приводить к утечке конфиденциальных данных или обходить запреты. Основное внимание уделяется анализу атак типа "инъекция промпта" (prompt injection), позволяющих обойти ограничения модели, извлечь скрытые данные или заставить ее следовать вредоносным инструкциям.
Modern large language models possess impressive capabilities but remain vulnerable to various attacks that can manipulate their responses, lead to leakage of confidential data, or bypass restrictions. This paper focuses on the analysis of prompt injection attacks, which allow bypassing model constraints, extracting hidden data, or forcing the model to follow malicious instructions.