Глоссарий безопасности ИИ-агентов
Краткий справочный индекс каждого термина, используемого в документации Zero Trust. Каждое определение ограничено тем, что вы как разработчик на хостируемом шлюзе можете наблюдать и настраивать. Термины ссылаются на свои домашние страницы для полных деталей.Идентификация и область
| Термин | Определение |
|---|---|
| Рабочее пространство | Верхнеуровневая граница тенанта. Все ключи, guardrails, политики firewall и события аудита принадлежат одному рабочему пространству; ничего не пересекает границы тенантов. См. Область, ключи и политики. |
| API-ключ (ограниченный ключ) | Bearer-токен, который ваш агент предъявляет при каждом вызове. Несёт собственный список разрешённых моделей, IP-ограничения, лимит расходов, срок действия и точные guardrail + политику firewall, применяемые к нему. См. Область, ключи и политики. |
model_limits | Набор моделей (или глобов моделей), которые ключ может вызывать. Запросы для модели вне списка отклоняются до любого вышестоящего вызова. |
allow_ips | Список разрешённых IP или CIDR на ключе. Запросы, исходящие с адреса вне списка, отклоняются при аутентификации. |
credit_limit_usd (лимит расходов) | Жёсткий потолок расходов на ключе в USD. Когда накопленное использование ключа достигает лимита, дальнейшие запросы отклоняются. Полезно для ограничения циклов агента вразнос. |
| Тег окружения | Произвольная метка (например, production, staging), прикреплённая к ключу для его организации и идентификации по среде развёртывания. |
is_firewall_gateway | Флаг, ограничивающий ключ для маршрутов Firewall gateway (/api/v1/firewall/*) — эндпоинтов диспетча MCP и хука evaluate. Обычный ключ получает 403 на этих маршрутах. |
| Минимальные полномочия | Принцип давать агенту только те модели, расходы, IP и политики, которые ему действительно нужны — и не более. Реализуется комбинированием model_limits, allow_ips, credit_limit_usd и ограничительной политики firewall на одном ключе. См. Область, ключи и политики. |
Guardrails
| Термин | Определение |
|---|---|
| Guardrail | Именованная контентная политика в рамках рабочего пространства — упорядоченный список правил, которые шлюз прогоняет против входного запроса и вывода модели. Привяжите к ключу (или установите как default рабочего пространства) один раз; каждый привязанный вызов проверяется без передеплоя. |
| Правило | Одна проверка внутри guardrail: тип (что обнаруживать), стадия (где смотреть) и действие (что делать). Правила выполняются по порядку. |
| Стадия | input (запрос вызывающего), output (ответ модели) или both. Правило срабатывает только на объявленной стадии. |
| Действие | block — отклонить весь запрос (HTTP 400); mask — редактировать совпадение и пропустить вызов; flag — только логировать, без изменения трафика. |
guardrail_blocked | Код ошибки, возвращаемый при срабатывании действия block правила guardrail. Возвращает HTTP 400. Запрос не стоит квоты — блоки входной стадии срабатывают до тарификации; блоки выходной стадии возвращают предварительно списанную квоту. |
| PII Shield | Правило типа pii, которое обнаруживает встроенные типы чувствительных сущностей (email, телефон, SSN, кредитная карта, IP и другие) и маскирует их типизированными тегами. (Тип правила pii также поддерживает block для отдельных сущностей при самостоятельном создании.) Канонический отправной точкой для предотвращения утечки данных. Секреты и учётные данные покрываются отдельным пресетом Secrets Blocker. |
| Guardrail против prompt injection | Правило безопасности, обнаруживающее попытки недоверенного контента (веб-страниц, результатов инструментов) захватить инструкции агента. Поставляется как пресет Prompt-Injection Basics в категории шаблонов Safety. |
| Фильтр чувствительных слов | Правило типа keyword, сопоставляющее список буквальных терминов без учёта регистра. Простейший denylist. |
| LLM judge | Правило типа llm_judge, выполняющее семантическую проверку (токсичность, оффтопик, intent jailbreak) против модели в вашем рабочем пространстве. Используйте для нечётких политик, которые не уловит ни один regex. Токены тарифицируются как подстрока judge. |
| Контекстная заземлённость | Правило типа grounding, оценивающее ответ модели против RAG-источников запроса и флагирующее или блокирующее ответы, которым они не верны. |
| Логировать сырое содержимое | Переключатель уровня guardrail — выключен по умолчанию (приватно-консервативно). Когда выключен, лента Matches записывает, что правило сработало, но не совпавшую подстроку. Включайте на guardrail, когда нужна реальная строка для триажа. |
| Лента Matches | Запись на уровне рабочего пространства каждого сработавшего правила: тип правила, действие, стадия, строка деталей и (когда включён Log raw content) совпавшая подстрока. Фильтруется по guardrail, типу правила и действию. |
Agent Firewall
| Термин | Определение |
|---|---|
| Политика Firewall | Именованный набор упорядоченных правил в рамках рабочего пространства, которые шлюз оценивает при каждом вызове инструмента. Привяжите один раз к ключу или установите как default рабочего пространства; изменений кода агента не требуется. |
| Вердикт | Результат, производимый правилом (или default’ом) для вызова инструмента. Один из allow, audit, deny, sanitize, pending_approval или cap_cost. |
| Default-вердикт | Вердикт, применяемый, когда ни одно правило в политике не совпало с вызовом инструмента. По умолчанию audit — разрешать всё и записывать — пока вы не готовы применять. |
| Поверхность применения | Точка в жизненном цикле запроса, где firewall видит вызов: inbound (определения инструментов, которые рекламирует агент), response (вызовы инструментов, которые выпускает модель), mcp (tools/call через MCP gateway), или egress (исходящий адрес назначения, сообщённый инструментом). См. Firewall. |
| Allow-list инструментов (glob) | tool_name_glob в правиле — небольшая чувствительная к регистру грамматика (shell.*, *.exec, *), соответствующая имени или семейству инструментов. First-match-wins против упорядоченного списка правил. |
| Валидация аргументов | Клаузы args_match в правиле — операторы eq, contains, regex, in, cidr_match, gt, lt над полями JSONPath в аргументах инструмента. Разница между «блокировать shell.exec» и «блокировать shell.exec только когда команда rm -rf». |
| Sanitize | Вердикт sanitize, редактирующий совпавшие подстроки (секреты, PII) из аргументов инструмента и пересылающий очищенный вызов, вместо блокировки всего действия. Эскалирует до блокировки на поверхности inbound. |
| Контроль egress | Правило поверхности egress со списком allow или deny хостов/CIDR — основная защита против SSRF и эксфильтрации данных. Уровень автономии tight также запрещает fetch-образные инструменты (http_fetch, fetch_url, web_search, request). |
cap_cost | Вердикт, запрещающий вызовы инструментов, когда накопленные расходы прогона агента (в центах) превышают потолок на правило. Автоматический выключатель для циклов агента вразнос; создаётся как правило и разрешается как allow или deny в событиях на основе накопленных расходов. |
| Правило последовательности | Правило с блоком sequence, сопоставляющее упорядоченную многошаговую цепочку вызовов инструментов в пределах временного окна (например, bulk-read → export → egress). Применяется реактивно асинхронным матчером; отображается в ленте событий. |
firewall_blocked | Код ошибки при запрещённом вызове инструмента. Возвращает HTTP 400 на inbound; ошибку инструмента на mcp. Помечается skip-retry. |
Подтверждение / HITL (pending_approval) | Вердикт pending_approval удерживает вызов инструмента для проверки человеком. Агент получает удержанный ответ с id подтверждения, проверяющий одобряет или отклоняет вне основного канала, и агент повторно отправляет с одноразовым токеном подтверждения. HTTP-код ошибки при удержании — firewall_approval_pending. |
| Детектирование аномалий | Статистический слой поверх статических правил. Оценивает активность на инструмент против 14-дневного базиса по часу недели и флагирует всплески, циклы повторных попыток и новые пути переходов между инструментами в просматриваемой ленте. |
Позиции
| Термин | Определение |
|---|---|
| Observe mode | Настройка уровня рабочего пространства. Когда включён и к ключу не привязана политика, вызовы инструментов разрешаются, но логируются как пробелы в покрытии, заполняя представление Discovered-tools. |
| Shadow mode | Флаг на политике. Политика оценивает и логирует ровно так, как в production, но каждый применяющий вердикт понижается до audit (причина с префиксом [shadow] would …). Переключатель безопасного выкатывания. |
| Enforce | Состояние по умолчанию, когда shadow mode выключен и политика привязана. Вердикты вступают в силу — deny блокирует, sanitize редактирует, pending_approval удерживает. |
| Уровень автономии | Единственный переключатель (tight / balanced / permissive), атомарно заменяющий позицию Firewall и Guardrails рабочего пространства в одной транзакции с отменой в один клик. См. Режимы применения и Базовый уровень Secure Agents. |
MCP и навыки
| Термин | Определение |
|---|---|
| MCP-сервер | Сервер Model Context Protocol, зарегистрированный в вашем рабочем пространстве и открытый через MCP gateway Firewall (api.orcarouter.ai/api/v1/firewall/mcp). Каждый получаемый им tools/call оценивается inline. См. Firewall MCP. |
tools/call | Сообщение протокола MCP, диспетчеризующее инструмент на MCP-сервер. Firewall оценивает его на поверхности mcp перед пересылкой. |
| Rug-pull | Риск цепочки поставок, когда MCP-сервер или установленная возможность меняет или расширяет свои определения инструментов после предоставления вами доступа. OrcaRouter управляет радиусом взрыва: каждый tools/call MCP оценивается firewall’ом на поверхности mcp по вашим правилам, а навык, сканируемый как рискованный, удерживается в quarantine до проверки человеком. |
| Навык | Пакет возможностей (один или несколько инструментов от одного или нескольких MCP-серверов), который шлюз сканирует на риск при регистрации. Каждый навык получает risk band и режим применения (allow, quarantine, block), накладывающийся поверх вердиктов уровня политики. |
Комплаенс и данные
| Термин | Определение |
|---|---|
| Пакет комплаенса | Предварительно созданный пакет guardrail + политики firewall для регулятивного профиля (GDPR, PCI, HIPAA, финансовые данные). Примените один раз из библиотеки шаблонов; правила редактируемы после применения. |
| Подписанный отчёт о комплаенсе | Аттестационный отчёт уровня рабочего пространства, подписанный Ed25519. Подпись публично верифицируема — любой, у кого есть публичный ключ, может подтвердить, что отчёт не был изменён. |
| Резидентство данных | Регион, записанный для ваших доказательств комплаенса. Подписанные отчёты о комплаенсе имеют штамп и хранятся по региону (us, eu, uk, ap, cn, global), и отчёт предоставляется только под совпадающим заявленным регионом. Установите в настройках комплаенса. |
| Право на удаление | По удалению рабочего пространства или явному запросу на удаление OrcaRouter предоставляет 30-дневный льготный период, затем удаляет PII из логов и записей аудита этого рабочего пространства. |
| Событие аудита | Неизменяемая запись, создаваемая после каждого создания, обновления, удаления и решения о применении — изменения политик, правок правил, разрешений подтверждений, сохранений guardrail. Значения секретов и блобы правил никогда не записываются в лог аудита. |
Угрозы (однострочники)
| Угроза | Что это такое |
|---|---|
| Prompt injection | Злоумышленник встраивает инструкции в контент, поглощаемый агентом (прямой: в сообщении пользователя; косвенный: в веб-странице, документе или результате инструмента), чтобы захватить поведение агента. |
| Jailbreak | Специально созданный промпт, пытающийся обойти обучение безопасности модели, как правило, оформляя запрос как ролевую игру, гипотетический сценарий или системное переопределение. |
| Excessive agency / confused deputy | Агент, наделённый более широкими полномочиями, чем требует его задача, что делает его тривиально эксплуатируемым внедрёнными инструкциями — ключевое смягчение — минимальные полномочия. |
| Эксфильтрация данных | Агент (или внедрённая инструкция), направляющий вызовы инструментов или исходящие запросы для утечки чувствительных данных на контролируемый злоумышленником эндпоинт. Смягчается правилами egress-контроля. |
| Denial-of-wallet | Агент вразнос или адверсариально запущенный, генерирующий неограниченные вышестоящие расходы на модель. Смягчается credit_limit_usd на ключе и правилами cap_cost в политике firewall. |
Для полной картины того, как эти элементы управления компонуются, см. Защита ИИ-агентов с OrcaRouter.
