Почему ИИ-агентам нужно нулевое доверие

Агент — это не запрос, который вы полностью составили. Он читает веб-страницы, обрабатывает документы и выполняет вызовы инструментов на основе того, что ему говорят эти источники. Любой из этих источников может содержать инструкции — и ваш агент, добросовестно действуя на основе внедрённого контента, становится прокси злоумышленника. Доверяйте действию по его существу. Не по его происхождению. Таков принцип нулевого доверия для ИИ-агентов. На этой странице объясняется модель угроз и каждый принцип сопоставляется с элементом управления OrcaRouter, который его применяет. Для быстрого старта или практической настройки см. ссылки внизу.

1. Почему «я доверяю своему агенту» — неправильная модель

Традиционная периметровая безопасность доверяет исходя из того, кто отправил запрос. После аутентификации субъекта его действия наследуют это доверие. Для ИИ-агентов это немедленно ломается:

Ваш агент читает страницу продукта, чтобы ответить на вопрос пользователя. Страница содержит . Агент воспринимает это как инструкцию, а не как недоверенный контент.
Ваш агент обрабатывает извлечённый документ и вызывает db.query с аргументами, которые диктовал документ.
Ваш агент извлекает URL, возвращённый результатом инструмента. URL указывает на внутренний сервис.

В каждом случае действие было инициировано вашим агентом — аутентифицированным, легитимным, авторизованным. И в каждом случае действие не было тем, что вы намеревались. Это проблема confused deputy: агент обладает ambient-полномочиями, которые он не получал для этой задачи, и злоумышленник эксплуатирует эти полномочия, управляя тем, что читает агент. Доверие на основе идентификации ломается, потому что агент является доверенным вызывающим. Нулевое доверие означает, что вы проверяете действие, а не агента.

2. Почему одной безопасности на уровне промптов недостаточно

Контентный фильтр, читающий промпты и ответы, не видит:

Вызовы инструментов — имя функции, аргументы, побочные эффекты.
Egress — сетевое назначение, которое содержит отчёт инструмента.
Самостоятельно установленные возможности — MCP-серверы и навыки, загруженные агентом во время выполнения, которые вы никогда не проверяли.
Стоимость — бесконечный цикл, вызывающий дорогостоящий инструмент 800 раз за 90 секунд.

Безопасность промптов была разработана для чата: текст на вход, текст на выход, человек читает. Агенты нарушают все эти предположения. Их защита требует плоскости управления, которая видит действия, а не только слова — той, которая находится на пути каждого вызова инструмента, независимо от того, какая модель его инициировала или как туда попала возможность.

3. Четыре принципа нулевого доверия, сопоставленные с OrcaRouter

Проверять каждый запрос — не вызывающего

Нулевое доверие отвергает идею безопасного периметра. Каждый вызов инспектируется по его содержимому, независимо от того, какой ключ или агент его инициировал. OrcaRouter помещает точку применения на шлюз — единственный путь, который должен пересечь каждый вызов, чтобы достичь модели или инструмента:

Каждый запрос, ответ и вызов инструмента, пересекающий шлюз — плюс каждый исходящий адрес назначения, маршрутизируемый через него вашим агентом — оценивается против активных политик рабочего пространства.
Нет исключения «доверенного агента». Вызов от вашего production-агента и вызов от внедрённой инструкции выглядят для вызывающего идентично — шлюз инспектирует оба.
Учётные данные хранятся в зашифрованном виде. Отчёты подписаны Ed25519 и верифицируемы публично.

Минимальные полномочия

Агент должен иметь ровно те возможности, которые нужны для его задачи — и не более. OrcaRouter применяет это на двух уровнях: Ограниченные API-ключи — каждый ключ привязывается к конкретному набору моделей, списку разрешённых IP-адресов, лимиту расходов, сроку действия и точным politike guardrail и firewall, которые применяются. Ключ агента не может превысить свои рамки, даже если внедрённые инструкции пытаются его перенаправить. См. Ограниченные ключи, политики и рабочие пространства. Списки разрешённых инструментов — правила firewall могут ограничивать, какие инструменты агент данного ключа может вызывать. Ключ, выданный агенту для чтения и исследований, может быть привязан к политике, которая запрещает любой инструмент со стороны записи — db.insert, fs.write, shell.exec — на уровне шлюза, до запуска инструмента. Модель агента никогда не видит успешного вызова.

Ограниченные ключи и политики firewall создаются и изменяются ролями Developer+. Чтение политик открыто любому участнику рабочего пространства.

Default-deny для важного, явный allow для намеренного

Открытое разрешение устаревает. Уровень автономии tight устанавливает для всего рабочего пространства позицию default-deny — деструктивные команды shell и SSRF egress запрещены из коробки, а guardrail Secrets Blocker экранирует секреты из ваших запросов. Вы явно открываете нужные вам действия, вместо того чтобы явно блокировать те, которые не нужны. default_verdict firewall для политики может быть allow, audit или deny. Только что созданные политики по умолчанию имеют audit — наблюдать всё, ничего не блокировать — чтобы вы могли увидеть, что реально делают ваши агенты, прежде чем ужесточать. Уровень автономии tight устанавливает это в deny на важных поверхностях.

Уровень автономии	Позиция
`tight`	Default-deny; деструктивный shell и SSRF egress запрещены; guardrails PII Shield + Secrets Blocker включены.
`balanced`	Аудит по умолчанию, запрет деструктивного shell, флаг для PII. Рекомендуемая стартовая позиция.
`permissive`	Нет применения; observe-режим включён, так что каждое действие всё равно логируется как пробел.

Применяйте уровень автономии через POST /api/workspace/firewall/autonomy (Developer+). Он устанавливает Firewall и Guardrails атомарно с отменой в один клик.

Предполагать взлом — и быть готовым доказать это

Нулевое доверие предполагает, что некоторые вызовы пройдут, что некоторые инструкции будут внедрены и что некоторые агенты будут вести себя неправильно. Стек управления разработан соответственно: Журнал аудита — каждое совпадение, вердикт и подтверждение логируется в ленты событий и совпадений рабочего пространства и коррелируется с прогоном агента, который его вызвал. Вы можете точно восстановить, что делал ваш агент, в каком порядке и почему каждый вызов был разрешён или заблокирован. Детектирование аномалий — Firewall изучает нормальную форму использования инструментов каждого рабочего пространства и флагирует отклонения: всплески скорости и стоимости относительно 14-дневного скользящего базиса, циклы повторных попыток и переходы между инструментами, которых рабочее пространство никогда раньше не делало. См. Firewall. Подтверждение человеком — вердикт pending_approval удерживает вызов для проверки вне основного канала перед тем, как он достигнет инструмента. Используйте его для любого действия, которое является высокорисковым, необратимым или новым. Агент ждёт; проверяющий одобряет или отклоняет; решение записывается. Изменений кода не требуется. Детектирование аномалий и подтверждения требуют Developer+ для действия; лента аномалий доступна для чтения любому участнику, а ленты Events и Runs требуют Developer+.

4. Стек управления по порядку

OrcaRouter применяет эти четыре слоя к каждому вызову последовательно:

Слой	Что применяет	Как соотносится с принципом нулевого доверия
Ограниченные ключи	Идентификация и границы возможностей	Минимальные полномочия
Guardrails	Содержимое промптов и ответов	Проверять каждый запрос (текстовый уровень)
Agent Firewall	Вызовы инструментов, egress, стоимость	Проверять каждый запрос (уровень действий); default-deny
Аудит + аномалии	Атрибуция, детектирование отклонений	Предполагать взлом

Ни один слой не знает и не доверяет тому, что решил предыдущий. Guardrails проверяют текст; Firewall управляет действиями — это взаимодополняющие плоскости, а не избыточные. См. Guardrails vs. Firewall для точного понимания, какую угрозу перехватывает каждый слой.

5. Что это означает для вашей интеграции

Вам не нужно менять код агента, чтобы получить применение нулевого доверия. Ваш агент продолжает вызывать https://api.orcarouter.ai/v1 ровно так же, как раньше. Политика живёт в шлюзе — настройте её один раз в рабочем пространстве, привяжите ключ, и каждый вызов этого ключа управляется, начиная со следующего запроса. Позиция по умолчанию (audit + observe mode) неразрушительна: она логирует всё и ничего не блокирует, так что вы можете наблюдать реальное использование инструментов агентом перед написанием правил. Начните с этого.

Конфигурация шлюза защищена ролями. Чтение политик и настроек открыто любому участнику рабочего пространства; ленты Events и Runs firewall требуют Developer+. Создание или изменение guardrails, политик firewall, ключей и уровней автономии требует Developer+. Отчёты о комплаенсе и чтение открытого текста ключей шлюза требуют Admin.

Стек управления

Как четыре слоя компонуются на каждом запросе — полный путь применения от ключа до аудита.

Базовый уровень Secure Agents

Рекомендуемая стартовая позиция — один уровень автономии, наблюдение реального трафика, затем ужесточение.

Быстрый старт

Включите нулевое доверие за 5 минут.

​1. Почему «я доверяю своему агенту» — неправильная модель

​2. Почему одной безопасности на уровне промптов недостаточно

​3. Четыре принципа нулевого доверия, сопоставленные с OrcaRouter

​Проверять каждый запрос — не вызывающего

​Минимальные полномочия

​Default-deny для важного, явный allow для намеренного

​Предполагать взлом — и быть готовым доказать это

​4. Стек управления по порядку

​5. Что это означает для вашей интеграции

Стек управления

Базовый уровень Secure Agents

Быстрый старт

1. Почему «я доверяю своему агенту» — неправильная модель

2. Почему одной безопасности на уровне промптов недостаточно

3. Четыре принципа нулевого доверия, сопоставленные с OrcaRouter

Проверять каждый запрос — не вызывающего

Минимальные полномочия

Default-deny для важного, явный allow для намеренного

Предполагать взлом — и быть готовым доказать это

4. Стек управления по порядку

5. Что это означает для вашей интеграции