Обзор и концепции

Защита ИИ-агентов с OrcaRouter

Безопасность ИИ-агентов по принципу нулевого доверия на уровне шлюза. Ограничивайте каждый ключ, проверяйте каждый промпт и ответ, управляйте каждым вызовом инструмента и ведите полный аудит — без изменений в коде агента.

ИИ-агент — это не чат-бот. Он читает недоверенные веб-страницы, вызывает инструменты, тратит деньги, обращается к внутренним хостам и загружает возможности, обнаруженные во время выполнения. Каждое из этих действий имеет последствия в реальном мире, и большинство из них происходят без участия человека. OrcaRouter находится на пути между вашим агентом и каждой вызываемой им моделью, поэтому это единственное место, которое видит каждый запрос и ответ — а также каждый вызов инструмента и каждый исходящий адрес назначения, которые ваш агент маршрутизирует через него — независимо от того, какой провайдер его обслуживает. Именно в этой точке принадлежит применение принципа нулевого доверия. Вы настраиваете его один раз в своём рабочем пространстве; ваш агент продолжает вызывать https://api.orcarouter.ai/v1 ровно так же, как раньше.

1. Угроза: агенты действуют, а не просто общаются

Безопасность на уровне промптов была создана для чата. Она предполагает, что модель производит текст, а человек его читает. Агенты нарушают это предположение:

Они поглощают недоверенный контент — веб-страницу, извлечённый документ, результат инструмента — который может содержать инструкции (prompt injection).
Они вызывают инструменты — shell.exec, db.query, платёжный API — которые делают необратимые вещи.
Они обращаются к сети — извлекая URL-адреса, которые злоумышленник может направить к внутренним сервисам или точкам эксфильтрации.
Они самостоятельно расширяются — устанавливая навыки, плагины и MCP-серверы, которые вы никогда не проверяли.

Ничего из этого не видно контентному фильтру, который читает только промпт. Защита агента означает управление идентификацией, содержимым, действиями и сетью, а также ведение журнала аудита для всего этого.

2. Стек управления

OrcaRouter применяет четыре слоя к каждому запросу. Каждый независим, ограничен рабочим пространством и привязывается к API-ключу без изменений в коде.

Ограниченные ключи

Идентификация с минимальными полномочиями. Привязана к конкретным моделям, IP-адресам, лимиту расходов, сроку действия и точным политике guardrail + firewall.

Guardrails

Контроль содержимого. Проверяйте промпты и ответы — блокируйте, маскируйте или отмечайте PII, секреты, инъекции и небезопасный вывод.

Agent Firewall

Контроль действий. Создавайте списки разрешённых инструментов, проверяйте и очищайте аргументы вызовов инструментов, удерживайте для подтверждения и ограничивайте egress и стоимость.

Аудит

Атрибуция. Каждое совпадение, вердикт и подтверждение логируется и коррелируется с прогоном агента, который его вызвал.

Запрос проходит через них по порядку: ключ решает, разрешён ли вызов вообще и какие политики применяются; guardrails проверяют входной текст; запускается модель; firewall оценивает все вызовы инструментов и исходящие адреса назначения; guardrails проверяют вывод; и каждое решение попадает в журнал аудита. См. Стек управления для полного пути.

3. Почему «нулевое доверие»

Нулевое доверие означает, что ни один запрос не является доверенным из-за своего происхождения. Вызов инструмента оценивается по тому, чем он является, а не по тому факту, что ваш собственный агент его инициировал — потому что агент может действовать на основе внедрённых инструкций, прочитанных с недоверенной страницы. OrcaRouter применяет это по умолчанию — запрет для важных действий и явные списки разрешений для тех, которые вы намеренно разрешаете. Почему ИИ-агентам нужно нулевое доверие — подробная модель.

4. Всё живёт в шлюзе

Стек управления настраивается в вашем рабочем пространстве и применяется на шлюзе, а не в вашем приложении:

Привяжите один раз — применяется везде. Привяжите guardrail и политику firewall к API-ключу; каждый вызов этого ключа проверяется. Отредактируйте политику — и каждый привязанный ключ изменится при следующем запросе.
Без передеплоя и изменений SDK. Ваш агент продолжает выпускать вызовы в форме OpenAI. Применение невидимо, пока не сработает правило.
Независимость от провайдера. Одна и та же политика работает поверх GPT, Claude, Gemini и остальных — она проверяет текст и действия, а не выбор модели.

Конфигурация защищена ролями внутри вашего рабочего пространства. Чтение политик и настроек открыто любому участнику; поле Events и ленты Runs firewall требуют роли Developer; создание или изменение guardrails, политик firewall и ключей требует Developer; изменения комплаенса и ключей шлюза требуют Admin. На протяжении этой документации каждый шаг конфигурации указывает требуемую роль.

5. Быстрый путь: один переключатель

Вам не нужно создавать правила, чтобы получить защиту. Уровень автономии задаёт всю позицию Firewall и Guardrails вашего рабочего пространства в один шаг с отменой в один клик:

Уровень	Что вы получаете
`tight`	Default-deny; блокирует деструктивные инструменты и SSRF egress; guardrails PII + секреты включены.
`balanced`	Аудит по умолчанию, запрет деструктивного shell, флаг для PII. Рекомендуемая стартовая позиция.
`permissive`	Ничего не применяется, но всё наблюдается — вы всё равно видите поведение агента.

Это базовый уровень Secure Agents — начните там, смотрите, что реально делают ваши агенты, затем ужесточайте.

6. Дальнейшие шаги

Быстрый старт

Включите нулевое доверие за 5 минут.

Почему нулевое доверие

Модель угроз, лежащая в основе дизайна.

Guardrails vs. Firewall

Какой слой перехватывает какую угрозу.

Ваши обязанности

Что обеспечивает шлюз, а что остаётся за вами.

Почему нулевое доверие

​1. Угроза: агенты действуют, а не просто общаются

​2. Стек управления

Ограниченные ключи

Guardrails

Agent Firewall

Аудит

​3. Почему «нулевое доверие»

​4. Всё живёт в шлюзе

​5. Быстрый путь: один переключатель

​6. Дальнейшие шаги

Быстрый старт

Почему нулевое доверие

Guardrails vs. Firewall

Ваши обязанности

1. Угроза: агенты действуют, а не просто общаются

2. Стек управления

3. Почему «нулевое доверие»

4. Всё живёт в шлюзе

5. Быстрый путь: один переключатель

6. Дальнейшие шаги