Перейти к основному содержанию
Это самый быстрый путь от незащищённого агента к позиции нулевого доверия. Вы применяете один переключатель, продолжаете вызывать шлюз ровно как раньше, наблюдаете, что реально делает ваш агент, а затем ужесточаете. Нет правил для создания, нет изменений SDK.
Применение позиции безопасности изменяет настройку рабочего пространства, поэтому шагам 2 и 5 нужна роль Developer. Лента Matches guardrail (шаг 4) открыта любому участнику; лента Events firewall тоже требует Developer.

Включите за 5 шагов

1

Получите API-ключ

Если у вас ещё нет ключа, создайте его — см. Получить API-ключ. Передайте этот ключ агенту, которого хотите защитить. Всё ниже привязывается к вашему рабочему пространству, так что одна позиция охватывает каждый ключ в нём.
2

Примените базовый уровень Secure Agents

В консоли откройте Firewall → Posture и примените balanced уровень автономии (роль Developer).В одной транзакции это устанавливает и позицию Firewall, и Guardrails: вызовы инструментов аудируются и PII флагируется, тогда как наиболее деструктивные действия (как деструктивный shell) запрещены — чтобы вы наблюдали перед широким применением. Это единственный переключатель с отменой в один клик. (Для прохода, который не блокирует ничего, начните с permissive.)
3

Отправьте запрос ровно как раньше

В вашем вызове ничего не меняется. Используйте тот же ключ, ту же форму OpenAI:
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Summarize my notes and email me at jane@acme.com"}
    ]
  }'
Запрос проходит. При balanced он не блокируется — он наблюдается. Email флагируется, и все вызовы инструментов агента записываются.
4

Посмотрите, что реально делал ваш агент

Две ленты, обе ограниченные рабочим пространством:
  • Firewall → Events / Runs — каждый вызов инструмента вашего агента, его вердикт и поверхность, которую он задел (инструмент, который он рекламировал, вызов, который выпустила модель, диспетч MCP или исходящий адрес назначения).
  • Guardrails → Matches — каждое сработавшее правило, например флагированный email, сгруппированное по guardrail и действию.
В этом и заключается ценность наблюдения в первую очередь: вы видите реальное поведение агента прежде, чем какое-либо правило может его сломать.
5

Ужесточите для применения

Когда ленты выглядят правильно, переключите уровень автономии на tight на той же странице Firewall → Posture (роль Developer).Теперь применение живое: PII маскируется до того, как модель его видит, секреты блокируются из ваших запросов, а деструктивные вызовы shell и SSRF egress запрещены. Запрещённый вызов инструмента возвращается как HTTP 400 firewall_blocked; заблокированный промпт — как HTTP 400 guardrail_blocked — и блокировка не стоит вам квоты. Никаких изменений приложения — уже следующий запрос управляется.
Это и есть нулевое доверие: каждый промпт и ответ проверен, каждый вызов инструмента и маршрутизированный исходящий запрос управляются, каждое решение логируется.

Что вы только что включили

СлойПри balancedПри tight
Guardrails (текст)PII флагируется (только аудит)PII маскируется, секреты блокируются
Firewall (действия)Аудируется; деструктивный shell запрещёнDefault-deny; деструктивный shell + SSRF egress запрещены
ВидимостьПолная — Events + MatchesПолная — Events + Matches

Слишком строго?

Каждое изменение автономии — одна транзакция с отменой в один клик, так что вы можете мгновенно откатиться к предыдущей позиции со страницы Firewall (или API отмены). Вы также можете просто повторно применить более мягкий уровень (balanced или permissive) в любое время.

Дальнейшие шаги

Базовый уровень Secure Agents

Что устанавливает каждый уровень автономии и как моделировать перед применением.

Режимы применения

Observe → shadow → enforce, безопасное выкатывание подробно.

Guardrails

Создавайте собственные правила содержимого поверх baseline.

Agent Firewall

Создавайте allow-листы инструментов, проверки аргументов и правила egress.