Details

Современные большие языковые модели обладают впечатляющими возможностями, но остаются уязвимыми перед различными атаками, способными манипулировать их ответами, приводить к утечке конфиденциальных данных или обходить запреты. Основное внимание уделяется анализу атак типа "инъекция промпта" (prompt injection), позволяющих обойти ограничения модели, извлечь скрытые данные или заставить ее следовать вредоносным инструкциям.

Modern large language models possess impressive capabilities but remain vulnerable to various attacks that can manipulate their responses, lead to leakage of confidential data, or bypass restrictions. This paper focuses on the analysis of prompt injection attacks, which allow bypassing model constraints, extracting hidden data, or forcing the model to follow malicious instructions.