Перейти к основному содержанию

Глоссарий безопасности ИИ-агентов

Краткий справочный индекс каждого термина, используемого в документации Zero Trust. Каждое определение ограничено тем, что вы как разработчик на хостируемом шлюзе можете наблюдать и настраивать. Термины ссылаются на свои домашние страницы для полных деталей.

Идентификация и область

ТерминОпределение
Рабочее пространствоВерхнеуровневая граница тенанта. Все ключи, guardrails, политики firewall и события аудита принадлежат одному рабочему пространству; ничего не пересекает границы тенантов. См. Область, ключи и политики.
API-ключ (ограниченный ключ)Bearer-токен, который ваш агент предъявляет при каждом вызове. Несёт собственный список разрешённых моделей, IP-ограничения, лимит расходов, срок действия и точные guardrail + политику firewall, применяемые к нему. См. Область, ключи и политики.
model_limitsНабор моделей (или глобов моделей), которые ключ может вызывать. Запросы для модели вне списка отклоняются до любого вышестоящего вызова.
allow_ipsСписок разрешённых IP или CIDR на ключе. Запросы, исходящие с адреса вне списка, отклоняются при аутентификации.
credit_limit_usd (лимит расходов)Жёсткий потолок расходов на ключе в USD. Когда накопленное использование ключа достигает лимита, дальнейшие запросы отклоняются. Полезно для ограничения циклов агента вразнос.
Тег окруженияПроизвольная метка (например, production, staging), прикреплённая к ключу для его организации и идентификации по среде развёртывания.
is_firewall_gatewayФлаг, ограничивающий ключ для маршрутов Firewall gateway (/api/v1/firewall/*) — эндпоинтов диспетча MCP и хука evaluate. Обычный ключ получает 403 на этих маршрутах.
Минимальные полномочияПринцип давать агенту только те модели, расходы, IP и политики, которые ему действительно нужны — и не более. Реализуется комбинированием model_limits, allow_ips, credit_limit_usd и ограничительной политики firewall на одном ключе. См. Область, ключи и политики.

Guardrails

ТерминОпределение
GuardrailИменованная контентная политика в рамках рабочего пространства — упорядоченный список правил, которые шлюз прогоняет против входного запроса и вывода модели. Привяжите к ключу (или установите как default рабочего пространства) один раз; каждый привязанный вызов проверяется без передеплоя.
ПравилоОдна проверка внутри guardrail: тип (что обнаруживать), стадия (где смотреть) и действие (что делать). Правила выполняются по порядку.
Стадияinput (запрос вызывающего), output (ответ модели) или both. Правило срабатывает только на объявленной стадии.
Действиеblock — отклонить весь запрос (HTTP 400); mask — редактировать совпадение и пропустить вызов; flag — только логировать, без изменения трафика.
guardrail_blockedКод ошибки, возвращаемый при срабатывании действия block правила guardrail. Возвращает HTTP 400. Запрос не стоит квоты — блоки входной стадии срабатывают до тарификации; блоки выходной стадии возвращают предварительно списанную квоту.
PII ShieldПравило типа pii, которое обнаруживает встроенные типы чувствительных сущностей (email, телефон, SSN, кредитная карта, IP и другие) и маскирует их типизированными тегами. (Тип правила pii также поддерживает block для отдельных сущностей при самостоятельном создании.) Канонический отправной точкой для предотвращения утечки данных. Секреты и учётные данные покрываются отдельным пресетом Secrets Blocker.
Guardrail против prompt injectionПравило безопасности, обнаруживающее попытки недоверенного контента (веб-страниц, результатов инструментов) захватить инструкции агента. Поставляется как пресет Prompt-Injection Basics в категории шаблонов Safety.
Фильтр чувствительных словПравило типа keyword, сопоставляющее список буквальных терминов без учёта регистра. Простейший denylist.
LLM judgeПравило типа llm_judge, выполняющее семантическую проверку (токсичность, оффтопик, intent jailbreak) против модели в вашем рабочем пространстве. Используйте для нечётких политик, которые не уловит ни один regex. Токены тарифицируются как подстрока judge.
Контекстная заземлённостьПравило типа grounding, оценивающее ответ модели против RAG-источников запроса и флагирующее или блокирующее ответы, которым они не верны.
Логировать сырое содержимоеПереключатель уровня guardrail — выключен по умолчанию (приватно-консервативно). Когда выключен, лента Matches записывает, что правило сработало, но не совпавшую подстроку. Включайте на guardrail, когда нужна реальная строка для триажа.
Лента MatchesЗапись на уровне рабочего пространства каждого сработавшего правила: тип правила, действие, стадия, строка деталей и (когда включён Log raw content) совпавшая подстрока. Фильтруется по guardrail, типу правила и действию.

Agent Firewall

ТерминОпределение
Политика FirewallИменованный набор упорядоченных правил в рамках рабочего пространства, которые шлюз оценивает при каждом вызове инструмента. Привяжите один раз к ключу или установите как default рабочего пространства; изменений кода агента не требуется.
ВердиктРезультат, производимый правилом (или default’ом) для вызова инструмента. Один из allow, audit, deny, sanitize, pending_approval или cap_cost.
Default-вердиктВердикт, применяемый, когда ни одно правило в политике не совпало с вызовом инструмента. По умолчанию audit — разрешать всё и записывать — пока вы не готовы применять.
Поверхность примененияТочка в жизненном цикле запроса, где firewall видит вызов: inbound (определения инструментов, которые рекламирует агент), response (вызовы инструментов, которые выпускает модель), mcp (tools/call через MCP gateway), или egress (исходящий адрес назначения, сообщённый инструментом). См. Firewall.
Allow-list инструментов (glob)tool_name_glob в правиле — небольшая чувствительная к регистру грамматика (shell.*, *.exec, *), соответствующая имени или семейству инструментов. First-match-wins против упорядоченного списка правил.
Валидация аргументовКлаузы args_match в правиле — операторы eq, contains, regex, in, cidr_match, gt, lt над полями JSONPath в аргументах инструмента. Разница между «блокировать shell.exec» и «блокировать shell.exec только когда команда rm -rf».
SanitizeВердикт sanitize, редактирующий совпавшие подстроки (секреты, PII) из аргументов инструмента и пересылающий очищенный вызов, вместо блокировки всего действия. Эскалирует до блокировки на поверхности inbound.
Контроль egressПравило поверхности egress со списком allow или deny хостов/CIDR — основная защита против SSRF и эксфильтрации данных. Уровень автономии tight также запрещает fetch-образные инструменты (http_fetch, fetch_url, web_search, request).
cap_costВердикт, запрещающий вызовы инструментов, когда накопленные расходы прогона агента (в центах) превышают потолок на правило. Автоматический выключатель для циклов агента вразнос; создаётся как правило и разрешается как allow или deny в событиях на основе накопленных расходов.
Правило последовательностиПравило с блоком sequence, сопоставляющее упорядоченную многошаговую цепочку вызовов инструментов в пределах временного окна (например, bulk-read → export → egress). Применяется реактивно асинхронным матчером; отображается в ленте событий.
firewall_blockedКод ошибки при запрещённом вызове инструмента. Возвращает HTTP 400 на inbound; ошибку инструмента на mcp. Помечается skip-retry.
Подтверждение / HITL (pending_approval)Вердикт pending_approval удерживает вызов инструмента для проверки человеком. Агент получает удержанный ответ с id подтверждения, проверяющий одобряет или отклоняет вне основного канала, и агент повторно отправляет с одноразовым токеном подтверждения. HTTP-код ошибки при удержании — firewall_approval_pending.
Детектирование аномалийСтатистический слой поверх статических правил. Оценивает активность на инструмент против 14-дневного базиса по часу недели и флагирует всплески, циклы повторных попыток и новые пути переходов между инструментами в просматриваемой ленте.

Позиции

ТерминОпределение
Observe modeНастройка уровня рабочего пространства. Когда включён и к ключу не привязана политика, вызовы инструментов разрешаются, но логируются как пробелы в покрытии, заполняя представление Discovered-tools.
Shadow modeФлаг на политике. Политика оценивает и логирует ровно так, как в production, но каждый применяющий вердикт понижается до audit (причина с префиксом [shadow] would …). Переключатель безопасного выкатывания.
EnforceСостояние по умолчанию, когда shadow mode выключен и политика привязана. Вердикты вступают в силу — deny блокирует, sanitize редактирует, pending_approval удерживает.
Уровень автономииЕдинственный переключатель (tight / balanced / permissive), атомарно заменяющий позицию Firewall и Guardrails рабочего пространства в одной транзакции с отменой в один клик. См. Режимы применения и Базовый уровень Secure Agents.

MCP и навыки

ТерминОпределение
MCP-серверСервер Model Context Protocol, зарегистрированный в вашем рабочем пространстве и открытый через MCP gateway Firewall (api.orcarouter.ai/api/v1/firewall/mcp). Каждый получаемый им tools/call оценивается inline. См. Firewall MCP.
tools/callСообщение протокола MCP, диспетчеризующее инструмент на MCP-сервер. Firewall оценивает его на поверхности mcp перед пересылкой.
Rug-pullРиск цепочки поставок, когда MCP-сервер или установленная возможность меняет или расширяет свои определения инструментов после предоставления вами доступа. OrcaRouter управляет радиусом взрыва: каждый tools/call MCP оценивается firewall’ом на поверхности mcp по вашим правилам, а навык, сканируемый как рискованный, удерживается в quarantine до проверки человеком.
НавыкПакет возможностей (один или несколько инструментов от одного или нескольких MCP-серверов), который шлюз сканирует на риск при регистрации. Каждый навык получает risk band и режим применения (allow, quarantine, block), накладывающийся поверх вердиктов уровня политики.

Комплаенс и данные

ТерминОпределение
Пакет комплаенсаПредварительно созданный пакет guardrail + политики firewall для регулятивного профиля (GDPR, PCI, HIPAA, финансовые данные). Примените один раз из библиотеки шаблонов; правила редактируемы после применения.
Подписанный отчёт о комплаенсеАттестационный отчёт уровня рабочего пространства, подписанный Ed25519. Подпись публично верифицируема — любой, у кого есть публичный ключ, может подтвердить, что отчёт не был изменён.
Резидентство данныхРегион, записанный для ваших доказательств комплаенса. Подписанные отчёты о комплаенсе имеют штамп и хранятся по региону (us, eu, uk, ap, cn, global), и отчёт предоставляется только под совпадающим заявленным регионом. Установите в настройках комплаенса.
Право на удалениеПо удалению рабочего пространства или явному запросу на удаление OrcaRouter предоставляет 30-дневный льготный период, затем удаляет PII из логов и записей аудита этого рабочего пространства.
Событие аудитаНеизменяемая запись, создаваемая после каждого создания, обновления, удаления и решения о применении — изменения политик, правок правил, разрешений подтверждений, сохранений guardrail. Значения секретов и блобы правил никогда не записываются в лог аудита.

Угрозы (однострочники)

УгрозаЧто это такое
Prompt injectionЗлоумышленник встраивает инструкции в контент, поглощаемый агентом (прямой: в сообщении пользователя; косвенный: в веб-странице, документе или результате инструмента), чтобы захватить поведение агента.
JailbreakСпециально созданный промпт, пытающийся обойти обучение безопасности модели, как правило, оформляя запрос как ролевую игру, гипотетический сценарий или системное переопределение.
Excessive agency / confused deputyАгент, наделённый более широкими полномочиями, чем требует его задача, что делает его тривиально эксплуатируемым внедрёнными инструкциями — ключевое смягчение — минимальные полномочия.
Эксфильтрация данныхАгент (или внедрённая инструкция), направляющий вызовы инструментов или исходящие запросы для утечки чувствительных данных на контролируемый злоумышленником эндпоинт. Смягчается правилами egress-контроля.
Denial-of-walletАгент вразнос или адверсариально запущенный, генерирующий неограниченные вышестоящие расходы на модель. Смягчается credit_limit_usd на ключе и правилами cap_cost в политике firewall.

Для полной картины того, как эти элементы управления компонуются, см. Защита ИИ-агентов с OrcaRouter.