https://api.orcarouter.ai/v1 ровно так же, как раньше.
1. Угроза: агенты действуют, а не просто общаются
Безопасность на уровне промптов была создана для чата. Она предполагает, что модель производит текст, а человек его читает. Агенты нарушают это предположение:- Они поглощают недоверенный контент — веб-страницу, извлечённый документ, результат инструмента — который может содержать инструкции (prompt injection).
- Они вызывают инструменты —
shell.exec,db.query, платёжный API — которые делают необратимые вещи. - Они обращаются к сети — извлекая URL-адреса, которые злоумышленник может направить к внутренним сервисам или точкам эксфильтрации.
- Они самостоятельно расширяются — устанавливая навыки, плагины и MCP-серверы, которые вы никогда не проверяли.
2. Стек управления
OrcaRouter применяет четыре слоя к каждому запросу. Каждый независим, ограничен рабочим пространством и привязывается к API-ключу без изменений в коде.Ограниченные ключи
Идентификация с минимальными полномочиями. Привязана к конкретным моделям,
IP-адресам, лимиту расходов, сроку действия и точным политике guardrail + firewall.
Guardrails
Контроль содержимого. Проверяйте промпты и ответы — блокируйте, маскируйте
или отмечайте PII, секреты, инъекции и небезопасный вывод.
Agent Firewall
Контроль действий. Создавайте списки разрешённых инструментов, проверяйте
и очищайте аргументы вызовов инструментов, удерживайте для подтверждения
и ограничивайте egress и стоимость.
Аудит
Атрибуция. Каждое совпадение, вердикт и подтверждение логируется и
коррелируется с прогоном агента, который его вызвал.
3. Почему «нулевое доверие»
Нулевое доверие означает, что ни один запрос не является доверенным из-за своего происхождения. Вызов инструмента оценивается по тому, чем он является, а не по тому факту, что ваш собственный агент его инициировал — потому что агент может действовать на основе внедрённых инструкций, прочитанных с недоверенной страницы. OrcaRouter применяет это по умолчанию — запрет для важных действий и явные списки разрешений для тех, которые вы намеренно разрешаете. Почему ИИ-агентам нужно нулевое доверие — подробная модель.4. Всё живёт в шлюзе
Стек управления настраивается в вашем рабочем пространстве и применяется на шлюзе, а не в вашем приложении:- Привяжите один раз — применяется везде. Привяжите guardrail и политику firewall к API-ключу; каждый вызов этого ключа проверяется. Отредактируйте политику — и каждый привязанный ключ изменится при следующем запросе.
- Без передеплоя и изменений SDK. Ваш агент продолжает выпускать вызовы в форме OpenAI. Применение невидимо, пока не сработает правило.
- Независимость от провайдера. Одна и та же политика работает поверх GPT, Claude, Gemini и остальных — она проверяет текст и действия, а не выбор модели.
Конфигурация защищена ролями внутри вашего рабочего пространства. Чтение
политик и настроек открыто любому участнику; поле Events и ленты Runs
firewall требуют роли Developer; создание или изменение guardrails, политик
firewall и ключей требует Developer; изменения комплаенса и ключей шлюза
требуют Admin. На протяжении этой документации каждый шаг конфигурации
указывает требуемую роль.
5. Быстрый путь: один переключатель
Вам не нужно создавать правила, чтобы получить защиту. Уровень автономии задаёт всю позицию Firewall и Guardrails вашего рабочего пространства в один шаг с отменой в один клик:| Уровень | Что вы получаете |
|---|---|
tight | Default-deny; блокирует деструктивные инструменты и SSRF egress; guardrails PII + секреты включены. |
balanced | Аудит по умолчанию, запрет деструктивного shell, флаг для PII. Рекомендуемая стартовая позиция. |
permissive | Ничего не применяется, но всё наблюдается — вы всё равно видите поведение агента. |
6. Дальнейшие шаги
Быстрый старт
Включите нулевое доверие за 5 минут.
Почему нулевое доверие
Модель угроз, лежащая в основе дизайна.
Guardrails vs. Firewall
Какой слой перехватывает какую угрозу.
Ваши обязанности
Что обеспечивает шлюз, а что остаётся за вами.
