Перейти к основному содержанию
Краткий ответ: Guardrails управляют текстом; Firewall управляет действиями. Они дополняют друг друга — через оба проходит один запрос — и самый быстрый способ настроить их вместе — это уровень автономии. Остальная часть этой страницы для случаев, когда нужно знать, какой слой владеет конкретной угрозой.
Требуемая роль. Любой участник рабочего пространства может читать политики и ленту Matches guardrail; лента Events firewall требует роли Developer. Создание или редактирование guardrails или политик firewall также требует Developer или выше.

1. Различие в одной строке

СлойУправляетВидит
GuardrailsТекст — что модель читает и пишетСодержимое промпта, содержимое ответа
Agent FirewallДействия — что делает агентВызовы инструментов, диспетч MCP, исходящие сетевые адреса назначения
Guardrails срабатывают до вышестоящего вызова (на промпте) и после него (на ответе). Firewall срабатывает на каждом вызове инструмента, который выпускает модель или инициирует агент — независимо от модели или провайдера, обслужившего ход.

2. Сравнение бок о бок

ИзмерениеGuardrailsAgent Firewall
УправляетТекст промпта и текст ответа моделиВызовы инструментов, диспетч MCP, egress-адреса назначения, стоимость агента
ВидитСообщение пользователя, системный промпт и ответ моделиИмя инструмента, аргументы вызова, вызовы инструментов, которые выпускает модель, исходящий host/IP
Привязывается черезguardrail_id на API-ключеfirewall_policy_id на API-ключе
Типы правилkeyword, regex, pii, max_chars, external, llm_judge, groundingГлоб имени инструмента + клаузы аргументов + область egress + владение навыком
Примеры угрозPII в промптах, секреты API в ответах, jailbreak, оффтопик вывод, oversized контекстОпасный вызов инструмента, SSRF, эксфильтрация данных, цикл стоимости агента вразнос, неодобренный MCP-сервер
Вердикты / действияblock (HTTP 400 guardrail_blocked), mask, flagallow, audit, deny (HTTP 400 firewall_blocked), sanitize, pending_approval, cap_cost
Когда срабатываетВходная стадия: до вызова модели; выходная стадия: после ответа моделиНа каждом вызове инструмента, который выпускает модель или инициирует агент
Shadow / observe modeНет — guardrails срабатывают или нетДа — shadow mode понижает применяющие вердикты до audit для безопасного выкатывания

3. Угроза → какой слой

Используйте эту таблицу для маршрутизации нового требования безопасности к правильному элементу управления:
УгрозаИспользуйте
PII в сообщении пользователяGuardrails — входное правило pii (mask / block)
Секрет в ответе моделиGuardrails — выходное правило секретов
Опасный вызов инструмента (shell.exec rm -rf /)Firewalldeny на глобе инструмента + клауза аргумента
SSRF / эксфильтрация данных через исходящий URLFirewall — список allow/deny egress
Prompt injection из недоверенного контентаОба — входной guardrail + allow-list firewall
Секрет в аргументе инструментаFirewall sanitize + правило секретов Guardrails
Jailbreak / обход политикиGuardrailsllm_judge / keyword / regex
Oversized промпт или стоимость токеновGuardrails — правило max_chars
Расходы агента вразнос (cost loop)Firewall — вердикт cap_cost
Неодобренный MCP-серверFirewall — deny на поверхности MCP / pending_approval
Чувствительные данные из результата инструментаGuardrails — выходное правило на ответ
Глубокое «почему» для каждой пары находится на страницах глубокого погружения Угрозы.

4. Используйте оба — уровни автономии настраивают их вместе

Guardrails и Firewall разработаны для компоновки, а не конкуренции. Один запрос проходит через обе плоскости:
  1. Входной guardrail работает — текст промпта проверяется и опционально маскируется.
  2. Вызов модели — (возможно очищенный) промпт достигает вышестоящей модели.
  3. Firewall — каждый вызов инструмента, выпускаемый моделью, оценивается.
  4. Выходной guardrail работает — текст ответа модели проверяется.
Самый быстрый способ настроить оба сразу — уровень автономии — одна настройка, которая атомарно записывает политику Firewall и политику Guardrails для всего рабочего пространства с отменой в один клик:
Уровень автономииПозиция FirewallПозиция Guardrails
tightDefault-deny; блокировка деструктивного shell + SSRF egressPII Shield + Secrets Blocker включены
balancedDefault audit; запрет деструктивного shellPII Shield только в режиме audit (флагирует PII)
permissiveНет применяющих правил; observe mode включёнНет применения
Примените уровень автономии из консоли Firewall (POST /api/workspace/firewall/autonomy, Developer+), затем настраивайте каждую плоскость независимо.

5. Итог

Guardrails владеют текстом; Firewall владеет действиями — запустите оба, позвольте уровню автономии соединить их и ужесточайте каждую плоскость независимо, как только вы видите реальный трафик ваших агентов.

Guardrails

Типы правил, детектирование PII, LLM judge, eval harness и API-справочник.

Agent Firewall

Вердикты, поверхности, уровни автономии, HITL-подтверждение и API-справочник.