Обзор и концепции

Быстрый старт: включите нулевое доверие за 5 минут

Быстрый старт защищённого ИИ-агента — включите нулевое доверие с OrcaRouter за пять шагов: получите ключ, примените базовый уровень Secure Agents, отправьте запрос, наблюдайте за агентом, затем ужесточайте. Без изменений кода агента.

Это самый быстрый путь от незащищённого агента к позиции нулевого доверия. Вы применяете один переключатель, продолжаете вызывать шлюз ровно как раньше, наблюдаете, что реально делает ваш агент, а затем ужесточаете. Нет правил для создания, нет изменений SDK.

Применение позиции безопасности изменяет настройку рабочего пространства, поэтому шагам 2 и 5 нужна роль Developer. Лента Matches guardrail (шаг 4) открыта любому участнику; лента Events firewall тоже требует Developer.

Включите за 5 шагов

Получите API-ключ

Если у вас ещё нет ключа, создайте его — см. Получить API-ключ. Передайте этот ключ агенту, которого хотите защитить. Всё ниже привязывается к вашему рабочему пространству, так что одна позиция охватывает каждый ключ в нём.

Примените базовый уровень Secure Agents

В консоли откройте Firewall → Posture и примените balanced уровень автономии (роль Developer).В одной транзакции это устанавливает и позицию Firewall, и Guardrails: вызовы инструментов аудируются и PII флагируется, тогда как наиболее деструктивные действия (как деструктивный shell) запрещены — чтобы вы наблюдали перед широким применением. Это единственный переключатель с отменой в один клик. (Для прохода, который не блокирует ничего, начните с permissive.)

Отправьте запрос ровно как раньше

В вашем вызове ничего не меняется. Используйте тот же ключ, ту же форму OpenAI:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Summarize my notes and email me at jane@acme.com"}
    ]
  }'

Запрос проходит. При balanced он не блокируется — он наблюдается. Email флагируется, и все вызовы инструментов агента записываются.

Посмотрите, что реально делал ваш агент

Две ленты, обе ограниченные рабочим пространством:

Firewall → Events / Runs — каждый вызов инструмента вашего агента, его вердикт и поверхность, которую он задел (инструмент, который он рекламировал, вызов, который выпустила модель, диспетч MCP или исходящий адрес назначения).
Guardrails → Matches — каждое сработавшее правило, например флагированный email, сгруппированное по guardrail и действию.

В этом и заключается ценность наблюдения в первую очередь: вы видите реальное поведение агента прежде, чем какое-либо правило может его сломать.

Ужесточите для применения

Когда ленты выглядят правильно, переключите уровень автономии на tight на той же странице Firewall → Posture (роль Developer).Теперь применение живое: PII маскируется до того, как модель его видит, секреты блокируются из ваших запросов, а деструктивные вызовы shell и SSRF egress запрещены. Запрещённый вызов инструмента возвращается как HTTP 400 firewall_blocked; заблокированный промпт — как HTTP 400 guardrail_blocked — и блокировка не стоит вам квоты. Никаких изменений приложения — уже следующий запрос управляется.

Это и есть нулевое доверие: каждый промпт и ответ проверен, каждый вызов инструмента и маршрутизированный исходящий запрос управляются, каждое решение логируется.

Что вы только что включили

Слой	При `balanced`	При `tight`
Guardrails (текст)	PII флагируется (только аудит)	PII маскируется, секреты блокируются
Firewall (действия)	Аудируется; деструктивный shell запрещён	Default-deny; деструктивный shell + SSRF egress запрещены
Видимость	Полная — Events + Matches	Полная — Events + Matches

Слишком строго?

Каждое изменение автономии — одна транзакция с отменой в один клик, так что вы можете мгновенно откатиться к предыдущей позиции со страницы Firewall (или API отмены). Вы также можете просто повторно применить более мягкий уровень (balanced или permissive) в любое время.

Дальнейшие шаги

Базовый уровень Secure Agents

Что устанавливает каждый уровень автономии и как моделировать перед применением.

Режимы применения

Observe → shadow → enforce, безопасное выкатывание подробно.

Guardrails

Создавайте собственные правила содержимого поверх baseline.

Agent Firewall

Создавайте allow-листы инструментов, проверки аргументов и правила egress.

Базовый уровень Secure Agents Разделённая ответственность

​Включите за 5 шагов

​Что вы только что включили

​Слишком строго?

​Дальнейшие шаги

Базовый уровень Secure Agents

Режимы применения

Guardrails

Agent Firewall

Включите за 5 шагов

Что вы только что включили

Слишком строго?

Дальнейшие шаги