Перейти к основному содержанию
Прежде чем правило заблокирует production-трафик, вы хотите знать, что оно срабатывает на правильных вещах и ни на чём лишнем. OrcaRouter даёт вам три позиции — observe, shadow и enforce — которые позволяют вам выкатываться постепенно, с видимостью на каждом шаге и без сюрпризов. На этой странице объясняется, что означает каждая позиция механически, как переходить между ними и как уровни автономии устанавливают всё это в один шаг.

1. Три позиции с первого взгляда

ПозицияЧто происходит с трафикомМеханизмКогда использовать
ObserveВесь трафик разрешается; вызовы без политики логируются как пробелы в покрытииWorkspace-level observe mode включён; правила guardrail используют действие flag; default_verdict firewall — auditБазовое обнаружение — понять, что реально делают ваши агенты, прежде чем написать одно правило
ShadowТрафик разрешается; политика оценивает и потенциальные блокировки логируются как [shadow] would …Флаг shadow_mode на политике firewallБезопасная предпроизводственная валидация — подтвердите, что политика срабатывает правильно, прежде чем трогать трафик
EnforceПрименяются реальные вердикты — deny блокирует, sanitize редактирует, pending_approval удерживаетShadow mode выключен; действия правил guardrail установлены на block / mask; вердикты firewall живыеProduction-применение после проверки политики в shadow
Требование роли. Любой участник рабочего пространства может читать политики, настройки и представление discovered-tools; ленты Events и Runs firewall требуют роли Developer. Изменение настроек, действий политики или shadow_mode также требует Developer или выше.

2. Позиция Observe — измеряйте перед написанием правил

Позиция observe — это не один переключатель. Это комбинация трёх независимых механизмов, которые вместе производят «разрешать всё, записывать всё»:

Observe mode firewall (настройка рабочего пространства)

Когда вызов инструмента разрешается в отсутствие политики вообще — нет привязки ключа и нет default’а рабочего пространства — workspace-level observe mode firewall определяет, что происходит:
  • Observe mode включён: вызов разрешается и логируется как пробел в покрытии. Представление Discovered Tools наполняется из этих gap-событий, показывая именно какие инструменты запускают ваши агенты без покрывающего их правила.
  • Observe mode выключен: вызов разрешается молча — побайтно идентично рабочему пространству, которое никогда не включало эту функцию.
Observe mode — поверхность детектирования пробелов. Она срабатывает только когда политика не разрешается. Это не то же самое, что наличие политики с audit.

Вердикт audit firewall (дефолт на уровне политики)

Когда политика разрешается, но ни одно правило не совпадает с вызовом инструмента, применяется default_verdict политики. Значение по умолчанию для default_verdictaudit — разрешить вызов и записать для разбора. Новая политика без правил и изменений конфигурации ничего не блокирует и ничего молча не пропускает: она аудирует всё, что видит. audit — это также обычный вердикт правила. Правило, которое совпадает и выдаёт audit, пропускает вызов и записывает его — аналог режима аудита guardrail для firewall.

Действие flag guardrail (действие правила)

На стороне guardrails действие flag — это эквивалент observe: правило срабатывает, совпадение записывается в ленту Matches, и запрос продолжается без изменений. Нет блокировки. Нет редактирования. Используйте flag, когда хотите измерить правило — посмотреть, как часто оно срабатывает и на чём — перед тем как принять block или mask.
Вместе эти три механизма производят позицию observe: observe mode перехватывает непокрытые вызовы инструментов; вердикты audit покрывают вызовы инструментов под политикой, но ещё не под конкретным правилом; действия flag покрывают проверки guardrail, которые вы ещё не готовы применять.

3. Позиция Shadow — валидируйте перед применением

Shadow mode — это флаг на уровне политики (shadow_mode: true) на политике firewall. Когда он включён:
  • Политика оценивает каждый вызов инструмента ровно так, как в production — правила сопоставляются, вердикты вычисляются, предикаты аргументов тестируются.
  • Каждый применяющий вердикт (deny, sanitize, pending_approval) понижается до audit до того, как он достигнет инструмента.
  • Логируемая причина имеет префикс [shadow] would …, чтобы вы могли видеть в ленте событий, что именно было бы заблокировано, очищено или удержано.
Shadow mode — ваш переключатель безопасного выкатывания. Напишите политику, включите shadow, направьте реальный трафик на неё, наблюдайте представления событий и прогонов в течение нескольких часов или дней, убедитесь, что политика срабатывает на правильных инструментах и ни на чём неожиданном, затем выключите shadow mode, чтобы начать применение.
Guardrails не имеют эквивалента shadow_mode на уровне политики — используйте действие flag на каждое правило, чтобы наблюдать отдельные проверки guardrail перед переходом к block или mask.

4. Позиция Enforce — реальные вердикты, реальные последствия

В позиции enforce ничего не понижается:
  • Firewall deny → агент видит ошибку инструмента (MCP) или HTTP 400 firewall_blocked (поверхность inbound). Ошибка называет инструмент и причину. Помечается skip-retry.
  • Firewall sanitize → совпавшие подстроки редактируются из аргументов инструмента и очищенный вызов пересылается.
  • Firewall pending_approval → вызов удерживается; агент получает HTTP 400 firewall_approval_pending и id подтверждения для опроса.
  • Guardrail block → HTTP 400 guardrail_blocked с именем guardrail и правила, которое сработало. Квота не списывается.
  • Guardrail mask → совпадение редактируется (например, jane@acme.com[EMAIL]) и запрос продолжается с очищенным текстом.
Чтобы достичь позиции enforce: выключите shadow_mode на политике firewall и измените действия правил guardrail с flag на block или mask по мере необходимости.

5. Рекомендуемый порядок выкатывания

1

Observe — обнаружьте, что делают ваши агенты

Включите workspace observe mode (PUT /api/workspace/firewall/settings, firewall_observe_mode: true). Оставьте firewall без политики (или с политикой с default_verdict равным audit). Добавьте действия flag к любым правилам guardrail, которые хотите измерить.Наблюдайте, как представление Discovered Tools заполняется каждым вызовом инструмента ваших агентов, помеченным как covered или gap. Используйте это как входные данные для написания первых правил политики — вы пишете правила для реального трафика, а не гипотетического.Дайте этому поработать до стабилизации представления Discovered Tools и получения достаточно данных для написания намеренных правил.
2

Shadow — валидируйте перед применением

Создайте политику firewall с shadow_mode: true. Привяжите её к ключам, которые хотите управлять (или установите как default рабочего пространства). Для guardrails держите действия правил как flag на этом этапе.Теперь политика оценивает каждый реальный вызов инструмента и логирует, что она сделала бы. Откройте представления Events и Runs и отфильтруйте по префиксу [shadow]. Убедитесь, что:
  • Она срабатывает на инструментах и шаблонах аргументов, которые вы задумали.
  • Она не срабатывает ни на чём, что вы хотите разрешить (ложные срабатывания).
Настройте правила, повторно понаблюдайте, повторите. Когда лог shadow выглядит правильным, двигайтесь дальше.
3

Enforce — включите рубильник

Установите shadow_mode: false на политике. Для любых правил guardrail, которые вы наблюдали с flag, измените действие на block или mask по мере необходимости.Отслеживайте ленту Events на предмет неожиданных блокировок в первый час. Действие Undo в логе аудита автономии позволяет восстановить предыдущее состояние в один клик, если нужно откатиться.

6. Уровни автономии — установите всё сразу

Тонкая настройка политик правило за правилом — точный путь. Уровни автономии — быстрый. Один элемент управления атомарно устанавливает позицию Firewall и Guardrails вашего рабочего пространства в одной транзакции с отменой в один клик:
УровеньПроизводимая позиция
permissiveПозиция Observe: нет применяющей политики, нет guardrails, observe mode рабочего пространства включён — вы видите всё, ничего не блокируется. Соответствует шагу Observe выше.
balancedDefault verdict audit, но деструктивный shell запрещён; PII Shield работает в режиме audit-only (флагирует PII); observe mode выключен. Рекомендуемая стартовая позиция, когда вы знаете форму своего трафика.
tightПолное применение: default-deny, деструктивный shell и SSRF egress запрещены; guardrails PII Shield + Secrets Blocker применяются (экранируют запросы на PII и секреты); observe mode выключен.
Применяйте через POST /api/workspace/firewall/autonomy (Developer+). Эндпоинт Simulate (GET /api/workspace/firewall/simulate?level=) предварительно просматривает изменение уровня до его применения.
Уровни автономии — удобный слой поверх тех же механизмов, описанных выше — они устанавливают default_verdict, observe mode, правила firewall и действия правил guardrail. Они не переключают shadow_mode; это остаётся ручным контролем на уровне политики. Вы всегда можете переопределить отдельные настройки после применения уровня.

7. Карта механизмов — какая настройка что контролирует

Эта таблица является авторитетным справочником. Четыре термина различны — не смешивайте их:
ТерминВидЧто контролирует
Observe modeНастройка рабочего пространстваПоведение, когда вызов инструмента разрешается в отсутствие политики. Включён → логировать как gap (Discovered Tools). Выключен → молчаливый allow.
Вердикт auditВердикт политики / правилаПоведение для вызова инструмента под политикой, которая совпадает (или откатывается к default). Allow + запись. Default default_verdict.
Действие flagДействие правила guardrailПроверка guardrail разрешает трафик и записывает совпадение. Действие наблюдения без применения для guardrails.
shadow_modeФлаг на уровне политики firewallПонизить все применяющие вердикты (deny/sanitize/pending_approval) до audit и добавить причине префикс [shadow] would ….

Базовый уровень Secure Agents

Рекомендуемая стартовая позиция и пятиминутная настройка безопасности агентов с нулевым доверием.

Agent Firewall

Полный справочник по политикам, правилам, вердиктам, shadow mode и MCP gateway.
Режимы применения — не бинарное включено/выключено. Двигайтесь через observe → shadow → enforce, и ваши правила проверяются на реальном трафике прежде, чем они когда-либо его заблокируют.