Режимы применения: observe, shadow и enforce

Прежде чем правило заблокирует production-трафик, вы хотите знать, что оно срабатывает на правильных вещах и ни на чём лишнем. OrcaRouter даёт вам три позиции — observe, shadow и enforce — которые позволяют вам выкатываться постепенно, с видимостью на каждом шаге и без сюрпризов. На этой странице объясняется, что означает каждая позиция механически, как переходить между ними и как уровни автономии устанавливают всё это в один шаг.

1. Три позиции с первого взгляда

Позиция	Что происходит с трафиком	Механизм	Когда использовать
Observe	Весь трафик разрешается; вызовы без политики логируются как пробелы в покрытии	Workspace-level observe mode включён; правила guardrail используют действие `flag`; `default_verdict` firewall — `audit`	Базовое обнаружение — понять, что реально делают ваши агенты, прежде чем написать одно правило
Shadow	Трафик разрешается; политика оценивает и потенциальные блокировки логируются как `[shadow] would …`	Флаг `shadow_mode` на политике firewall	Безопасная предпроизводственная валидация — подтвердите, что политика срабатывает правильно, прежде чем трогать трафик
Enforce	Применяются реальные вердикты — deny блокирует, sanitize редактирует, pending_approval удерживает	Shadow mode выключен; действия правил guardrail установлены на `block` / `mask`; вердикты firewall живые	Production-применение после проверки политики в shadow

Требование роли. Любой участник рабочего пространства может читать политики, настройки и представление discovered-tools; ленты Events и Runs firewall требуют роли Developer. Изменение настроек, действий политики или shadow_mode также требует Developer или выше.

2. Позиция Observe — измеряйте перед написанием правил

Позиция observe — это не один переключатель. Это комбинация трёх независимых механизмов, которые вместе производят «разрешать всё, записывать всё»:

Observe mode firewall (настройка рабочего пространства)

Когда вызов инструмента разрешается в отсутствие политики вообще — нет привязки ключа и нет default’а рабочего пространства — workspace-level observe mode firewall определяет, что происходит:

Observe mode включён: вызов разрешается и логируется как пробел в покрытии. Представление Discovered Tools наполняется из этих gap-событий, показывая именно какие инструменты запускают ваши агенты без покрывающего их правила.
Observe mode выключен: вызов разрешается молча — побайтно идентично рабочему пространству, которое никогда не включало эту функцию.

Observe mode — поверхность детектирования пробелов. Она срабатывает только когда политика не разрешается. Это не то же самое, что наличие политики с audit.

Вердикт `audit` firewall (дефолт на уровне политики)

Когда политика разрешается, но ни одно правило не совпадает с вызовом инструмента, применяется default_verdict политики. Значение по умолчанию для default_verdict — audit — разрешить вызов и записать для разбора. Новая политика без правил и изменений конфигурации ничего не блокирует и ничего молча не пропускает: она аудирует всё, что видит. audit — это также обычный вердикт правила. Правило, которое совпадает и выдаёт audit, пропускает вызов и записывает его — аналог режима аудита guardrail для firewall.

Действие `flag` guardrail (действие правила)

На стороне guardrails действие flag — это эквивалент observe: правило срабатывает, совпадение записывается в ленту Matches, и запрос продолжается без изменений. Нет блокировки. Нет редактирования. Используйте flag, когда хотите измерить правило — посмотреть, как часто оно срабатывает и на чём — перед тем как принять block или mask.

Вместе эти три механизма производят позицию observe: observe mode перехватывает непокрытые вызовы инструментов; вердикты audit покрывают вызовы инструментов под политикой, но ещё не под конкретным правилом; действия flag покрывают проверки guardrail, которые вы ещё не готовы применять.

3. Позиция Shadow — валидируйте перед применением

Shadow mode — это флаг на уровне политики (shadow_mode: true) на политике firewall. Когда он включён:

Политика оценивает каждый вызов инструмента ровно так, как в production — правила сопоставляются, вердикты вычисляются, предикаты аргументов тестируются.
Каждый применяющий вердикт (deny, sanitize, pending_approval) понижается до audit до того, как он достигнет инструмента.
Логируемая причина имеет префикс [shadow] would …, чтобы вы могли видеть в ленте событий, что именно было бы заблокировано, очищено или удержано.

Shadow mode — ваш переключатель безопасного выкатывания. Напишите политику, включите shadow, направьте реальный трафик на неё, наблюдайте представления событий и прогонов в течение нескольких часов или дней, убедитесь, что политика срабатывает на правильных инструментах и ни на чём неожиданном, затем выключите shadow mode, чтобы начать применение.

Guardrails не имеют эквивалента shadow_mode на уровне политики — используйте действие flag на каждое правило, чтобы наблюдать отдельные проверки guardrail перед переходом к block или mask.

4. Позиция Enforce — реальные вердикты, реальные последствия

В позиции enforce ничего не понижается:

Firewall deny → агент видит ошибку инструмента (MCP) или HTTP 400 firewall_blocked (поверхность inbound). Ошибка называет инструмент и причину. Помечается skip-retry.
Firewall sanitize → совпавшие подстроки редактируются из аргументов инструмента и очищенный вызов пересылается.
Firewall pending_approval → вызов удерживается; агент получает HTTP 400 firewall_approval_pending и id подтверждения для опроса.
Guardrail block → HTTP 400 guardrail_blocked с именем guardrail и правила, которое сработало. Квота не списывается.
Guardrail mask → совпадение редактируется (например, jane@acme.com → [EMAIL]) и запрос продолжается с очищенным текстом.

Чтобы достичь позиции enforce: выключите shadow_mode на политике firewall и измените действия правил guardrail с flag на block или mask по мере необходимости.

5. Рекомендуемый порядок выкатывания

Observe — обнаружьте, что делают ваши агенты

Включите workspace observe mode (PUT /api/workspace/firewall/settings, firewall_observe_mode: true). Оставьте firewall без политики (или с политикой с default_verdict равным audit). Добавьте действия flag к любым правилам guardrail, которые хотите измерить.Наблюдайте, как представление Discovered Tools заполняется каждым вызовом инструмента ваших агентов, помеченным как covered или gap. Используйте это как входные данные для написания первых правил политики — вы пишете правила для реального трафика, а не гипотетического.Дайте этому поработать до стабилизации представления Discovered Tools и получения достаточно данных для написания намеренных правил.

Shadow — валидируйте перед применением

Создайте политику firewall с shadow_mode: true. Привяжите её к ключам, которые хотите управлять (или установите как default рабочего пространства). Для guardrails держите действия правил как flag на этом этапе.Теперь политика оценивает каждый реальный вызов инструмента и логирует, что она сделала бы. Откройте представления Events и Runs и отфильтруйте по префиксу [shadow]. Убедитесь, что:

Она срабатывает на инструментах и шаблонах аргументов, которые вы задумали.
Она не срабатывает ни на чём, что вы хотите разрешить (ложные срабатывания).

Настройте правила, повторно понаблюдайте, повторите. Когда лог shadow выглядит правильным, двигайтесь дальше.

Enforce — включите рубильник

Установите shadow_mode: false на политике. Для любых правил guardrail, которые вы наблюдали с flag, измените действие на block или mask по мере необходимости.Отслеживайте ленту Events на предмет неожиданных блокировок в первый час. Действие Undo в логе аудита автономии позволяет восстановить предыдущее состояние в один клик, если нужно откатиться.

6. Уровни автономии — установите всё сразу

Тонкая настройка политик правило за правилом — точный путь. Уровни автономии — быстрый. Один элемент управления атомарно устанавливает позицию Firewall и Guardrails вашего рабочего пространства в одной транзакции с отменой в один клик:

Уровень	Производимая позиция
`permissive`	Позиция Observe: нет применяющей политики, нет guardrails, observe mode рабочего пространства включён — вы видите всё, ничего не блокируется. Соответствует шагу Observe выше.
`balanced`	Default verdict `audit`, но деструктивный shell запрещён; PII Shield работает в режиме audit-only (флагирует PII); observe mode выключен. Рекомендуемая стартовая позиция, когда вы знаете форму своего трафика.
`tight`	Полное применение: default-deny, деструктивный shell и SSRF egress запрещены; guardrails PII Shield + Secrets Blocker применяются (экранируют запросы на PII и секреты); observe mode выключен.

Применяйте через POST /api/workspace/firewall/autonomy (Developer+). Эндпоинт Simulate (GET /api/workspace/firewall/simulate?level=) предварительно просматривает изменение уровня до его применения.

Уровни автономии — удобный слой поверх тех же механизмов, описанных выше — они устанавливают default_verdict, observe mode, правила firewall и действия правил guardrail. Они не переключают shadow_mode; это остаётся ручным контролем на уровне политики. Вы всегда можете переопределить отдельные настройки после применения уровня.

7. Карта механизмов — какая настройка что контролирует

Эта таблица является авторитетным справочником. Четыре термина различны — не смешивайте их:

Термин	Вид	Что контролирует
Observe mode	Настройка рабочего пространства	Поведение, когда вызов инструмента разрешается в отсутствие политики. Включён → логировать как gap (Discovered Tools). Выключен → молчаливый allow.
Вердикт `audit`	Вердикт политики / правила	Поведение для вызова инструмента под политикой, которая совпадает (или откатывается к default). Allow + запись. Default `default_verdict`.
Действие `flag`	Действие правила guardrail	Проверка guardrail разрешает трафик и записывает совпадение. Действие наблюдения без применения для guardrails.
`shadow_mode`	Флаг на уровне политики firewall	Понизить все применяющие вердикты (deny/sanitize/pending_approval) до `audit` и добавить причине префикс `[shadow] would …`.

Базовый уровень Secure Agents

Рекомендуемая стартовая позиция и пятиминутная настройка безопасности агентов с нулевым доверием.

Agent Firewall

Полный справочник по политикам, правилам, вердиктам, shadow mode и MCP gateway.

Режимы применения — не бинарное включено/выключено. Двигайтесь через observe → shadow → enforce, и ваши правила проверяются на реальном трафике прежде, чем они когда-либо его заблокируют.

​1. Три позиции с первого взгляда

​2. Позиция Observe — измеряйте перед написанием правил

​Observe mode firewall (настройка рабочего пространства)

​Вердикт audit firewall (дефолт на уровне политики)

​Действие flag guardrail (действие правила)

​3. Позиция Shadow — валидируйте перед применением

​4. Позиция Enforce — реальные вердикты, реальные последствия

​5. Рекомендуемый порядок выкатывания

​6. Уровни автономии — установите всё сразу

​7. Карта механизмов — какая настройка что контролирует

Базовый уровень Secure Agents

Agent Firewall

1. Три позиции с первого взгляда

2. Позиция Observe — измеряйте перед написанием правил

Observe mode firewall (настройка рабочего пространства)

Вердикт `audit` firewall (дефолт на уровне политики)

Действие `flag` guardrail (действие правила)

3. Позиция Shadow — валидируйте перед применением

4. Позиция Enforce — реальные вердикты, реальные последствия

5. Рекомендуемый порядок выкатывания

6. Уровни автономии — установите всё сразу

7. Карта механизмов — какая настройка что контролирует