shell.exec, или firewall инструментов, который никогда не замечает номер
кредитной карты, уходящий в промпте.
Самый быстрый путь к полному базовому уровню безопасности агентов — задать
обе плоскости сразу. Контроль автономии OrcaRouter — базовый уровень Secure
Agents — делает ровно это: единственный переключатель уровня рабочего
пространства, который пишет политику firewall и
guardrail вместе, в одной транзакции, с отменой в
один клик. Вы не создаёте правило, чтобы получить защиту; вы выбираете уровень и
настраиваете позже.
Две плоскости взаимодополняющие, не избыточные. Guardrails проверяют текст
промпта/ответа (PII, секреты, намерение jailbreak и инъекции); firewall
управляет действиями, которые совершает агент (какие инструменты, MCP-вызовы и
хосты). Любая одна оставляет пробел, который закрывает другая — см.
Guardrails против Firewall.
1. Почему один базовый уровень бьёт две полумеры
Реальный прогон агента пересекает обе плоскости в одном запросе. Модель читает промпт (текст), решает вызватьdb.query (действие), и результат инструмента
возвращается в следующий ход (снова текст). Защита только одной плоскости
оставляет другую неохраняемой:
Только firewall
Вы отклоняете деструктивный shell, но промпт всё равно несёт SSN клиента
прямо к модели — а аргумент инструмента всё равно утекает API-ключ.
Только guardrails
Вы маскируете PII в промптах, но агент всё равно вызывает
rm -rf,
достигает endpoint cloud-metadata или зацикливается на убегающем инструменте.2. Базовый уровень безопасности агентов: три уровня
Каждый уровень покрывает те же две плоскости. Выберите один; это ваш пол, и вы добавляете точность правилами позже.| Уровень | Firewall | Guardrails | Observe-режим |
|---|---|---|---|
tight | Default-deny; деструктивный shell + инструменты в форме извлечения отклонены | PII Shield + Secrets Blocker применены | Выкл |
balanced | Default-audit; деструктивный shell отклонён | PII Shield в audit-only (флагирует PII) | Выкл |
permissive | Нет применяющей политики | Нет | Вкл — логирует каждый вызов как пробел |
Что `tight` отклоняет на плоскости действий
Что `tight` отклоняет на плоскости действий
tight штампует default-вердикт политики firewall в deny, затем
наслаивает deny-правила для имён shell/exec инструментов, которые несут
деструктивные команды — shell.*, bash, cmd, powershell, exec — и
для имён инструментов в форме извлечения, которые несут SSRF —
http_fetch, web_search, fetch_url, request (и их MCP-варианты с
пространством имён <server>.*). Он отклоняет эти имена инструментов; он
не поставляет CIDR или egress-правило cloud-metadata. Если вы хотите
отклонить 169.254.169.254 или диапазоны RFC-1918 по назначению, создайте
собственное egress-правило — см.
Контроль egress.Что `tight` применяет на плоскости содержимого
Что `tight` применяет на плоскости содержимого
Оба guardrail PII Shield и Secrets Blocker активны и применяют. PII
Shield маскирует PII в запросе до того, как он достигнет модели; Secrets
Blocker ловит учётные данные в запросе. Секреты в аргументах инструмента
ловятся этим guardrail на запросе — firewall не удаляет их по умолчанию.
Почему `balanced` — рекомендуемый старт
Почему `balanced` — рекомендуемый старт
balanced аудирует всё (default-вердикт audit), так что вы видите
реальное поведение вашего агента, при этом всё равно отклоняя единственный
самый деструктивный класс — деструктивный shell. PII Shield работает в
режиме audit-only (флагирует PII, не блокирует). Вы получаете полный след
почти без риска неожиданной блокировки, затем ужесточаете от видимости, а не
от догадок.3. Один конкретный пример: примените balanced, наблюдайте обе ленты
Применение уровня — единственное консольное действие (Firewall → Posture) или
один вызов API. Маршрут выполняется под вашей сессией и требует Developer+.
audit_id — сохраните его; это то, что вы передаёте для
отмены. Будучи применён, базовый уровень живой на следующем вызове инструмента.
Без передеплоя, без изменений в коде агента. Теперь вы наблюдаете обе
плоскости сразу:
- Firewall → Events — каждый вердикт вызова инструмента (
audit, отклонённые вызовы деструктивного shell). См. Журнал событий. - Guardrails → Matches — каждое попадание content-политики (флаги PII Shield).
balanced пишет реальную, редактируемую политику firewall и
реальный guardrail (каждый назван по уровню), вы можете открыть любой потом и
настроить его — базовый уровень — это стартовая точка, а не запертый пресет.
4. Отмена — это один вызов
Каждое изменение автономии обратимо из своего снимка аудита, восстанавливая точное предыдущее состояние — политики, правила, guardrails и настройки — не обобщённый сброс.5. Рекомендуемый путь
Начните широко, наблюдайте, затем ужесточайте с позиции видимости:Примените balanced
Полный аудит-трейл; отклонён только деструктивный shell; PII флагируется.
Запускайте своих агентов нормально день-два.
Симулируйте tight
GET /api/workspace/firewall/simulate?level=tight и сравните его deny с
тем, что реально показала лента Events. Если вызовы в форме извлечения или
деструктивного shell — часть вашего нормального потока, сначала исправьте
агента.Примените tight
Как только simulate не таит сюрпризов, переключитесь на
tight. Отмена в
одном вызове, если production сломается.Настройте правилами
Базовый уровень — ваш пол. Вырежьте исключения или добавьте контроли,
которые он не покрывает, правилами firewall и
именованными guardrails. Привяжите конкретную
политику или guardrail к отдельному ключу для более тонкой области.
6. Роли для комбинированного базового уровня
Контроль автономии охватывает обе плоскости, но каждое действие ограничено ролью.| Действие | Минимальная роль |
|---|---|
| Симулировать уровень / просмотреть guardrail Matches / просмотреть Discovered Tools | Member |
| Просмотреть firewall Events и Runs | Developer+ |
| Применить уровень автономии | Developer+ |
| Отменить изменение автономии | Developer+ |
/api/workspace/firewall/* и /api/guardrail/*). Только ретрансляционные
вызовы /v1/* используют ключ sk-orca-…; маршруты ключа шлюза — отдельная
область. См.
Область: ключи, политики, рабочие пространства.
7. После базового уровня: где настраивать каждую плоскость
Базовый уровень даёт вам защиту за первые 30 минут. Дальше у каждой плоскости свой справочник для работы над точностью:Обзор Firewall
Вердикты, поверхности, предикаты аргументов, подтверждения — плоскость действий.
Guardrails
Правила keyword, regex, PII, llm_judge и grounding — плоскость содержимого.
Shadow-режим
Разверните ужесточённую политику firewall в audit-only до применения.
Базовый уровень Secure Agents
Концептуальная страница контроля автономии и его семантики отмены.
