Guardrails vs. Agent Firewall — когда что использовать

Краткий ответ: Guardrails управляют текстом; Firewall управляет действиями. Они дополняют друг друга — через оба проходит один запрос — и самый быстрый способ настроить их вместе — это уровень автономии. Остальная часть этой страницы для случаев, когда нужно знать, какой слой владеет конкретной угрозой.

Требуемая роль. Любой участник рабочего пространства может читать политики и ленту Matches guardrail; лента Events firewall требует роли Developer. Создание или редактирование guardrails или политик firewall также требует Developer или выше.

1. Различие в одной строке

Слой	Управляет	Видит
Guardrails	Текст — что модель читает и пишет	Содержимое промпта, содержимое ответа
Agent Firewall	Действия — что делает агент	Вызовы инструментов, диспетч MCP, исходящие сетевые адреса назначения

Guardrails срабатывают до вышестоящего вызова (на промпте) и после него (на ответе). Firewall срабатывает на каждом вызове инструмента, который выпускает модель или инициирует агент — независимо от модели или провайдера, обслужившего ход.

2. Сравнение бок о бок

Измерение	Guardrails	Agent Firewall
Управляет	Текст промпта и текст ответа модели	Вызовы инструментов, диспетч MCP, egress-адреса назначения, стоимость агента
Видит	Сообщение пользователя, системный промпт и ответ модели	Имя инструмента, аргументы вызова, вызовы инструментов, которые выпускает модель, исходящий host/IP
Привязывается через	`guardrail_id` на API-ключе	`firewall_policy_id` на API-ключе
Типы правил	`keyword`, `regex`, `pii`, `max_chars`, `external`, `llm_judge`, `grounding`	Глоб имени инструмента + клаузы аргументов + область egress + владение навыком
Примеры угроз	PII в промптах, секреты API в ответах, jailbreak, оффтопик вывод, oversized контекст	Опасный вызов инструмента, SSRF, эксфильтрация данных, цикл стоимости агента вразнос, неодобренный MCP-сервер
Вердикты / действия	`block` (HTTP 400 `guardrail_blocked`), `mask`, `flag`	`allow`, `audit`, `deny` (HTTP 400 `firewall_blocked`), `sanitize`, `pending_approval`, `cap_cost`
Когда срабатывает	Входная стадия: до вызова модели; выходная стадия: после ответа модели	На каждом вызове инструмента, который выпускает модель или инициирует агент
Shadow / observe mode	Нет — guardrails срабатывают или нет	Да — shadow mode понижает применяющие вердикты до `audit` для безопасного выкатывания

3. Угроза → какой слой

Используйте эту таблицу для маршрутизации нового требования безопасности к правильному элементу управления:

Угроза	Используйте
PII в сообщении пользователя	Guardrails — входное правило `pii` (`mask` / `block`)
Секрет в ответе модели	Guardrails — выходное правило секретов
Опасный вызов инструмента (`shell.exec rm -rf /`)	Firewall — `deny` на глобе инструмента + клауза аргумента
SSRF / эксфильтрация данных через исходящий URL	Firewall — список allow/deny egress
Prompt injection из недоверенного контента	Оба — входной guardrail + allow-list firewall
Секрет в аргументе инструмента	Firewall `sanitize` + правило секретов Guardrails
Jailbreak / обход политики	Guardrails — `llm_judge` / keyword / regex
Oversized промпт или стоимость токенов	Guardrails — правило `max_chars`
Расходы агента вразнос (cost loop)	Firewall — вердикт `cap_cost`
Неодобренный MCP-сервер	Firewall — deny на поверхности MCP / `pending_approval`
Чувствительные данные из результата инструмента	Guardrails — выходное правило на ответ

Глубокое «почему» для каждой пары находится на страницах глубокого погружения Угрозы.

4. Используйте оба — уровни автономии настраивают их вместе

Guardrails и Firewall разработаны для компоновки, а не конкуренции. Один запрос проходит через обе плоскости:

Входной guardrail работает — текст промпта проверяется и опционально маскируется.
Вызов модели — (возможно очищенный) промпт достигает вышестоящей модели.
Firewall — каждый вызов инструмента, выпускаемый моделью, оценивается.
Выходной guardrail работает — текст ответа модели проверяется.

Самый быстрый способ настроить оба сразу — уровень автономии — одна настройка, которая атомарно записывает политику Firewall и политику Guardrails для всего рабочего пространства с отменой в один клик:

Уровень автономии	Позиция Firewall	Позиция Guardrails
`tight`	Default-deny; блокировка деструктивного shell + SSRF egress	PII Shield + Secrets Blocker включены
`balanced`	Default audit; запрет деструктивного shell	PII Shield только в режиме audit (флагирует PII)
`permissive`	Нет применяющих правил; observe mode включён	Нет применения

Примените уровень автономии из консоли Firewall (POST /api/workspace/firewall/autonomy, Developer+), затем настраивайте каждую плоскость независимо.

5. Итог

Guardrails владеют текстом; Firewall владеет действиями — запустите оба, позвольте уровню автономии соединить их и ужесточайте каждую плоскость независимо, как только вы видите реальный трафик ваших агентов.

Guardrails

Типы правил, детектирование PII, LLM judge, eval harness и API-справочник.

Agent Firewall

Вердикты, поверхности, уровни автономии, HITL-подтверждение и API-справочник.

Режимы применения Область и ключи

​1. Различие в одной строке

​2. Сравнение бок о бок

​3. Угроза → какой слой

​4. Используйте оба — уровни автономии настраивают их вместе

​5. Итог

Guardrails

Agent Firewall

1. Различие в одной строке

2. Сравнение бок о бок

3. Угроза → какой слой

4. Используйте оба — уровни автономии настраивают их вместе

5. Итог