Firewall видит egress только для адресов назначения, маршрутизируемых через
шлюз через путь диспетча MCP или хук evaluate. Инструмент, который ваш агент
выполняет целиком внутри собственного процесса, находится вне поля его зрения.
Маршрутизируйте сетевые вызовы инструментов агента через шлюз — и они будут
управляться.
1. Как работает атака
Канонический путь через агента проходит в три шага:- Инъекция — агент читает недоверенный контент, содержащий встроенные инструкции (веб-страница, полученный документ, заметка в CRM).
- Сбор — внедрённые инструкции говорят агенту собрать чувствительный материал — API-ключи, строки базы данных, PII пользователей — используя уже имеющиеся инструменты.
- Эксфильтрация — агенту говорят отправить этот материал через fetch-образный
инструмент:
http_fetch,web_search,fetch_urlилиrequest. Адрес назначения контролируется злоумышленником.
169.254.169.254 (облачные метаданные), внутреннему порту Redis или другому
приватному сервису. См. Prompt injection
для шага инъекции; эта страница фокусируется на сетевом шаге.
2. Allow-list egress — блокировка исходящих адресов назначения
Наиболее долговечная защита — allow-list egress: перечислите хосты, к которым ваши агенты законно разрешены обращаться, и запретите всё остальное. Правило egress используетstage: egress и поле egress. Вердикт контролирует
полярность — allow пропускает перечисленные адреса назначения; deny с меньшим
приоритетом блокирует всё остальное:
169.254.169.254, возвращённый DNS, всё равно
перехватывается записью deny CIDR 10.0.0.0/8. Заблокированный вызов возвращает
HTTP 400 с кодом ошибки firewall_blocked.
Чтобы запрещать известно-плохие диапазоны без явного allow-листа, напишите
целевое правило deny egress, перечисляющее эндпоинт облачных метаданных
(169.254.169.254) и RFC-1918 приватные диапазоны (10.0.0.0/8,
172.16.0.0/12, 192.168.0.0/16). Накладывайте allow-list поверх с меньшим
номером приоритета, чтобы правила deny оценивались первыми.
3. Блокировка fetch-образных инструментов на уровне имени
Ещё до оценки egress-адреса назначения вы можете полностью убрать возможность. Уровень автономииtight запрещает http_fetch, web_search, fetch_url и
request по glob имени инструмента как backstop SSRF и эксфильтрации. Если
вашему агенту не нужен ни один из этих инструментов, tight убирает поверхность
атаки за один шаг:
tight, напишите
правило deny на поверхности inbound. inbound блокирует инструмент до того,
как модель сможет его выбрать — агент никогда не получает возможность в своём
списке инструментов:
4. Guardrail Secrets Blocker — остановка учётных данных на уровне промпта
Guardrail Secrets Blocker работает на входной стадии, сканируя промпт на ключи доступа в стиле AWS, ключи OpenAI, ключи Anthropic, GitHub-токены и аналогичные паттерны учётных данных до выхода запроса из шлюза. Если секрет обнаружен, запрос блокируется — учётные данные никогда не достигают модели и никогда не появляются в вызове инструмента. Включите его из панели Guardrails или как часть уровня автономииtight. Он
независим от правил egress firewall.
| Угроза | Слой, который её останавливает |
|---|---|
| Промпт несёт API-ключ | Secrets Blocker (входной guardrail) |
| Агент вызывает fetch-инструмент в направлении хоста злоумышленника | Правило allow/deny egress |
| Fetch-образный инструмент рекламируется модели | Правило deny inbound или автономия tight |
| Агент достигает облачных метаданных или RFC-1918 | Правило deny egress, перечисляющее эти CIDR |
5. Выкатывание с shadow mode
Если вы не уверены, к каким хостам ваш агент законно обращается сегодня, начните в shadow mode перед применением:- Создайте правила egress с вашим предполагаемым allow-листом и установите
shadow_mode: trueна политике. - Наблюдайте ленту Events — вызовы, которые были бы заблокированы,
появляются как
[shadow] would denyс адресом назначения. - Корректируйте список
allowдо тех пор, пока только достижимые злоумышленником адреса назначения были бы запрещены, затем отключите shadow mode для начала применения.
6. Дальнейшие шаги
Справочник правил Firewall
Полный язык сопоставления — списки egress, CIDR, клаузы аргументов
и все вердикты.
Обзор Agent Firewall
Политики, поверхности, уровни автономии и наблюдаемость.
Prompt injection
Шаг инъекции, направляющий агентов к эксфильтрации.
Отравление инструментов MCP
Вредоносные инструменты MCP, регистрирующие fetch-образные возможности.
