rm -rf /, который модель
повторяет в shell-инструмент, UNION SELECT, который она выдаёт для
исполнения SQL-раннером. Контентная политика, думающая только о PII или
секретах, упускает все четыре. Категория пресетов Agent существует
ровно для этой формы — детерминированные правила regex, которые
блокируют запрос или ответ до того, как нижестоящий инструмент вообще
по нему сработает.
Это сфокусированная посадочная страница для агентного сценария. Полный
движок guardrail — каждый тип правила, поле, стадия и маршрут — см. в
справочнике Guardrails.
1. Почему agent guardrails — отдельная поверхность
Guardrail проверяет содержимое — текст в запросе и текст в ответе. Для агента этот текст становится действием: URL извлекается, markdown рендерится, shell-строка запускается, SQL исполняется. Так что тот же движокblock / mask, который вы используете для PII, выполняет
двойную работу здесь — он останавливает полезную нагрузку на шлюзе до
того, как слой инструментов агента сможет превратить её в побочный
эффект.
Категория Agent поставляет четыре пресета, каждый — правило regex
с действием block, распределённые по двум стадиям:
URL Filter — input, block
URL Filter — input, block
Блокирует любой
http(s) URL в запросе. Используйте для агентных
потоков, где исходящие URL должны быть в allowlist, а не открыты.
Засеянный паттерн совпадает с любым URL; отредактируйте regex, чтобы
разрешить конкретные домены.Markdown Image Block — output, block
Markdown Image Block — output, block
Блокирует встраивания markdown-изображений (
) в
ответе модели. Защищает от эксфильтрации через рендеринг
изображений на клиентах, автоматически загружающих удалённые
изображения — классический канал утечки данных, где отрендеренный URL
изображения контрабандой выносит данные.Tool Call Shell Block — input, block
Tool Call Shell Block — input, block
Блокирует очевидные паттерны shell-инъекции в запросе (
rm -rf /, curl … | sh, wget … | bash, эскалация sudo). Используйте
для агентных потоков, которые могут переслать пользовательский ввод в
shell-инструмент.SQL Injection in Output — output, block
SQL Injection in Output — output, block
Блокирует ответы модели, несущие классические полезные нагрузки
SQL-инъекции (
UNION SELECT, OR 1=1, DROP TABLE, терминаторы
комментариев). Глубокая защита для инструментов, автоматически
исполняющих SQL, произведённый моделью.Два пресета проверяют input, два — output. URL Filter и Tool Call
Shell Block срабатывают на запросе — до запуска модели, до
тарификации квоты. Markdown Image Block и SQL Injection in Output
срабатывают на ответе — после ответа модели, до того как содержимое
дойдёт до вашего клиента или его слоя инструментов. Знать, на какой
стадии живёт риск — это вся игра; см.
Стадия input и
Стадия output.
2. Примените agent guardrail в консоли
Каждый шаг здесь — действие консоли на хостед-шлюзе под вашей собственной сессией. Создание и редактирование guardrails требует Developer+ в рабочем пространстве. Только финальный вызов/v1/*
использует relay-ключ sk-orca-... — сам guardrail настраивается
целиком в консоли.
Откройте шаблон
В консоли откройте Guardrails, нажмите split-кнопку New
guardrail и выберите пресет из категории шаблонов Agent —
например, Markdown Image Block. Это засевает единственное правило
block
regex на правильной стадии.Назовите и сохраните
Дайте ему имя (≤ 64 символов), например
agent-rails, и сохраните.
Пресет — это семя, а не замок — после добавьте три других правила
Agent или отредактируйте regex свободно (см.
§4).Протестируйте в песочнице
Откройте вкладку Test внутри редактора, вставьте образец,
выберите подходящую стадию и прогоните текущую политику локально —
без вышестоящего вызова, без квоты (см.
§3).
Привяжите ключ
Отредактируйте API-ключ и выберите
agent-rails из выпадающего
списка Guardrail (устанавливает guardrail_id на ключе) или
пометьте его default’ом рабочего пространства. См.
Привязка к ключу и
Default аккаунта.3. Докажите это перед привязкой
Докажите, что правило срабатывает, прежде чем на него укажет любой ключ. Откройте вкладку Test, выберите стадию output и вставьте ответ, который отравленная атакующим страница могла бы уговорить модель выдать:4. Скомпонуйте и настройте правила
Четыре пресета — семена. Распространённый ход — объединить их в один guardrailagent-rails и ужесточить каждый regex под ваш стек:
Allowlist URL
Стартуйте с URL Filter, затем отредактируйте
regex, чтобы он
блокировал каждый URL кроме ваших санкционированных доменов —
инвертируйте совпадение в allowlist вместо сплошной блокировки.Создайте собственные детекторы
Добавьте правило
regex
для любой формы полезной нагрузки, которая важна вашим инструментам —
паттерны RE2, линейное время, без обратных ссылок. Паттерны
компилируются один раз и кэшируются между запросами.5. Как выглядит блокировка
Каждый пресет Agent использует действие block. Заблокированный запрос возвращает HTTP 400 с кодом ошибкиguardrail_blocked и
сообщением, называющим guardrail и сработавшее правило:
guardrail_blocked.
6. Guardrails — это содержимое; firewall — это вызовы инструментов
Agent guardrails — сильный первый слой, но они рассуждают о строках, а не семантике инструментов. Они блокируют shell-строку в содержимом — они не понимают, что модель выдала структурированныйtool_call к
деструктивному инструменту или что исходящий запрос направляется к
metadata-IP.
Этот слой вызовов инструментов — Firewall: он
оценивает выданные моделью tool_calls, MCP tools/call и исходящий
egress с вердиктами вроде allow / audit / deny /
pending_approval. Эти двое компонуются — guardrails проверяют текст,
firewall управляет действием.
Firewall
Управляйте выданными моделью вызовами инструментов, MCP-вызовами и
egress вердиктами allow / audit / deny / approval.
Guardrails vs. Firewall
Когда тянуться к контентному guardrail против firewall вызовов
инструментов — и как прогонять оба.
Защита ИИ-агентов
Полный стек управления агентом: содержимое, инструменты, MCP и egress.
Избыточная агентность
Угроза, которую адресуют эти рельсы — агент, делающий больше, чем
должен.
7. Посмотрите, что сработало
Каждое сработавшее правило записывает совпадение — тип правила, действие, стадию и строку-деталь — всплывающее в ленте Matches рабочего пространства. Сама совпавшая подстрока записывается только, когда включён Log raw content, который по умолчанию выключен. Группируйте и фильтруйте ленту по guardrail, типу правила и действию, чтобы наблюдать частоту срабатываний ваших правил Agent и настраивать ложные срабатывания. См. Ленту Matches, Логирование и приватность и Настройку ложных срабатываний.8. Куда двигаться дальше
Правила стадии output
Как работает проверка ответа для Markdown Image Block и SQL Injection
in Output.
Regex-детекторы
Создайте собственные паттерны RE2, чтобы расширить правила Agent.
Эксфильтрация данных
Канал эксфильтрации, который закрывает Markdown Image Block.
Опасные вызовы инструментов
Почему одного контентного рельса недостаточно — сочетайте его с
firewall.
