Глоссарий концепций

Глоссарий безопасности ИИ-агентов

Краткий справочный индекс каждого термина, используемого в документации Zero Trust. Каждое определение ограничено тем, что вы как разработчик на хостируемом шлюзе можете наблюдать и настраивать. Термины ссылаются на свои домашние страницы для полных деталей.

Идентификация и область

Термин	Определение
Рабочее пространство	Верхнеуровневая граница тенанта. Все ключи, guardrails, политики firewall и события аудита принадлежат одному рабочему пространству; ничего не пересекает границы тенантов. См. Область, ключи и политики.
API-ключ (ограниченный ключ)	Bearer-токен, который ваш агент предъявляет при каждом вызове. Несёт собственный список разрешённых моделей, IP-ограничения, лимит расходов, срок действия и точные guardrail + политику firewall, применяемые к нему. См. Область, ключи и политики.
`model_limits`	Набор моделей (или глобов моделей), которые ключ может вызывать. Запросы для модели вне списка отклоняются до любого вышестоящего вызова.
`allow_ips`	Список разрешённых IP или CIDR на ключе. Запросы, исходящие с адреса вне списка, отклоняются при аутентификации.
`credit_limit_usd` (лимит расходов)	Жёсткий потолок расходов на ключе в USD. Когда накопленное использование ключа достигает лимита, дальнейшие запросы отклоняются. Полезно для ограничения циклов агента вразнос.
Тег окружения	Произвольная метка (например, `production`, `staging`), прикреплённая к ключу для его организации и идентификации по среде развёртывания.
`is_firewall_gateway`	Флаг, ограничивающий ключ для маршрутов Firewall gateway (`/api/v1/firewall/*`) — эндпоинтов диспетча MCP и хука evaluate. Обычный ключ получает `403` на этих маршрутах.
Минимальные полномочия	Принцип давать агенту только те модели, расходы, IP и политики, которые ему действительно нужны — и не более. Реализуется комбинированием `model_limits`, `allow_ips`, `credit_limit_usd` и ограничительной политики firewall на одном ключе. См. Область, ключи и политики.

Guardrails

Термин	Определение
Guardrail	Именованная контентная политика в рамках рабочего пространства — упорядоченный список правил, которые шлюз прогоняет против входного запроса и вывода модели. Привяжите к ключу (или установите как default рабочего пространства) один раз; каждый привязанный вызов проверяется без передеплоя.
Правило	Одна проверка внутри guardrail: тип (что обнаруживать), стадия (где смотреть) и действие (что делать). Правила выполняются по порядку.
Стадия	`input` (запрос вызывающего), `output` (ответ модели) или `both`. Правило срабатывает только на объявленной стадии.
Действие	`block` — отклонить весь запрос (HTTP 400); `mask` — редактировать совпадение и пропустить вызов; `flag` — только логировать, без изменения трафика.
`guardrail_blocked`	Код ошибки, возвращаемый при срабатывании действия `block` правила guardrail. Возвращает HTTP 400. Запрос не стоит квоты — блоки входной стадии срабатывают до тарификации; блоки выходной стадии возвращают предварительно списанную квоту.
PII Shield	Правило типа `pii`, которое обнаруживает встроенные типы чувствительных сущностей (email, телефон, SSN, кредитная карта, IP и другие) и маскирует их типизированными тегами. (Тип правила `pii` также поддерживает `block` для отдельных сущностей при самостоятельном создании.) Канонический отправной точкой для предотвращения утечки данных. Секреты и учётные данные покрываются отдельным пресетом Secrets Blocker.
Guardrail против prompt injection	Правило безопасности, обнаруживающее попытки недоверенного контента (веб-страниц, результатов инструментов) захватить инструкции агента. Поставляется как пресет Prompt-Injection Basics в категории шаблонов Safety.
Фильтр чувствительных слов	Правило типа `keyword`, сопоставляющее список буквальных терминов без учёта регистра. Простейший denylist.
LLM judge	Правило типа `llm_judge`, выполняющее семантическую проверку (токсичность, оффтопик, intent jailbreak) против модели в вашем рабочем пространстве. Используйте для нечётких политик, которые не уловит ни один regex. Токены тарифицируются как подстрока judge.
Контекстная заземлённость	Правило типа `grounding`, оценивающее ответ модели против RAG-источников запроса и флагирующее или блокирующее ответы, которым они не верны.
Логировать сырое содержимое	Переключатель уровня guardrail — выключен по умолчанию (приватно-консервативно). Когда выключен, лента Matches записывает, что правило сработало, но не совпавшую подстроку. Включайте на guardrail, когда нужна реальная строка для триажа.
Лента Matches	Запись на уровне рабочего пространства каждого сработавшего правила: тип правила, действие, стадия, строка деталей и (когда включён Log raw content) совпавшая подстрока. Фильтруется по guardrail, типу правила и действию.

Agent Firewall

Термин	Определение
Политика Firewall	Именованный набор упорядоченных правил в рамках рабочего пространства, которые шлюз оценивает при каждом вызове инструмента. Привяжите один раз к ключу или установите как default рабочего пространства; изменений кода агента не требуется.
Вердикт	Результат, производимый правилом (или default’ом) для вызова инструмента. Один из `allow`, `audit`, `deny`, `sanitize`, `pending_approval` или `cap_cost`.
Default-вердикт	Вердикт, применяемый, когда ни одно правило в политике не совпало с вызовом инструмента. По умолчанию `audit` — разрешать всё и записывать — пока вы не готовы применять.
Поверхность применения	Точка в жизненном цикле запроса, где firewall видит вызов: `inbound` (определения инструментов, которые рекламирует агент), `response` (вызовы инструментов, которые выпускает модель), `mcp` (`tools/call` через MCP gateway), или `egress` (исходящий адрес назначения, сообщённый инструментом). См. Firewall.
Allow-list инструментов (glob)	`tool_name_glob` в правиле — небольшая чувствительная к регистру грамматика (`shell.`, `.exec`, `*`), соответствующая имени или семейству инструментов. First-match-wins против упорядоченного списка правил.
Валидация аргументов	Клаузы `args_match` в правиле — операторы `eq`, `contains`, `regex`, `in`, `cidr_match`, `gt`, `lt` над полями JSONPath в аргументах инструмента. Разница между «блокировать `shell.exec`» и «блокировать `shell.exec` только когда команда `rm -rf`».
Sanitize	Вердикт `sanitize`, редактирующий совпавшие подстроки (секреты, PII) из аргументов инструмента и пересылающий очищенный вызов, вместо блокировки всего действия. Эскалирует до блокировки на поверхности `inbound`.
Контроль egress	Правило поверхности `egress` со списком allow или deny хостов/CIDR — основная защита против SSRF и эксфильтрации данных. Уровень автономии `tight` также запрещает fetch-образные инструменты (`http_fetch`, `fetch_url`, `web_search`, `request`).
`cap_cost`	Вердикт, запрещающий вызовы инструментов, когда накопленные расходы прогона агента (в центах) превышают потолок на правило. Автоматический выключатель для циклов агента вразнос; создаётся как правило и разрешается как allow или deny в событиях на основе накопленных расходов.
Правило последовательности	Правило с блоком `sequence`, сопоставляющее упорядоченную многошаговую цепочку вызовов инструментов в пределах временного окна (например, bulk-read → export → egress). Применяется реактивно асинхронным матчером; отображается в ленте событий.
`firewall_blocked`	Код ошибки при запрещённом вызове инструмента. Возвращает HTTP 400 на `inbound`; ошибку инструмента на `mcp`. Помечается skip-retry.
Подтверждение / HITL (`pending_approval`)	Вердикт `pending_approval` удерживает вызов инструмента для проверки человеком. Агент получает удержанный ответ с id подтверждения, проверяющий одобряет или отклоняет вне основного канала, и агент повторно отправляет с одноразовым токеном подтверждения. HTTP-код ошибки при удержании — `firewall_approval_pending`.
Детектирование аномалий	Статистический слой поверх статических правил. Оценивает активность на инструмент против 14-дневного базиса по часу недели и флагирует всплески, циклы повторных попыток и новые пути переходов между инструментами в просматриваемой ленте.

Позиции

Термин	Определение
Observe mode	Настройка уровня рабочего пространства. Когда включён и к ключу не привязана политика, вызовы инструментов разрешаются, но логируются как пробелы в покрытии, заполняя представление Discovered-tools.
Shadow mode	Флаг на политике. Политика оценивает и логирует ровно так, как в production, но каждый применяющий вердикт понижается до `audit` (причина с префиксом `[shadow] would …`). Переключатель безопасного выкатывания.
Enforce	Состояние по умолчанию, когда shadow mode выключен и политика привязана. Вердикты вступают в силу — `deny` блокирует, `sanitize` редактирует, `pending_approval` удерживает.
Уровень автономии	Единственный переключатель (`tight` / `balanced` / `permissive`), атомарно заменяющий позицию Firewall и Guardrails рабочего пространства в одной транзакции с отменой в один клик. См. Режимы применения и Базовый уровень Secure Agents.

MCP и навыки

Термин	Определение
MCP-сервер	Сервер Model Context Protocol, зарегистрированный в вашем рабочем пространстве и открытый через MCP gateway Firewall (`api.orcarouter.ai/api/v1/firewall/mcp`). Каждый получаемый им `tools/call` оценивается inline. См. Firewall MCP.
`tools/call`	Сообщение протокола MCP, диспетчеризующее инструмент на MCP-сервер. Firewall оценивает его на поверхности `mcp` перед пересылкой.
Rug-pull	Риск цепочки поставок, когда MCP-сервер или установленная возможность меняет или расширяет свои определения инструментов после предоставления вами доступа. OrcaRouter управляет радиусом взрыва: каждый `tools/call` MCP оценивается firewall’ом на поверхности `mcp` по вашим правилам, а навык, сканируемый как рискованный, удерживается в `quarantine` до проверки человеком.
Навык	Пакет возможностей (один или несколько инструментов от одного или нескольких MCP-серверов), который шлюз сканирует на риск при регистрации. Каждый навык получает risk band и режим применения (`allow`, `quarantine`, `block`), накладывающийся поверх вердиктов уровня политики.

Комплаенс и данные

Термин	Определение
Пакет комплаенса	Предварительно созданный пакет guardrail + политики firewall для регулятивного профиля (GDPR, PCI, HIPAA, финансовые данные). Примените один раз из библиотеки шаблонов; правила редактируемы после применения.
Подписанный отчёт о комплаенсе	Аттестационный отчёт уровня рабочего пространства, подписанный Ed25519. Подпись публично верифицируема — любой, у кого есть публичный ключ, может подтвердить, что отчёт не был изменён.
Резидентство данных	Регион, записанный для ваших доказательств комплаенса. Подписанные отчёты о комплаенсе имеют штамп и хранятся по региону (`us`, `eu`, `uk`, `ap`, `cn`, `global`), и отчёт предоставляется только под совпадающим заявленным регионом. Установите в настройках комплаенса.
Право на удаление	По удалению рабочего пространства или явному запросу на удаление OrcaRouter предоставляет 30-дневный льготный период, затем удаляет PII из логов и записей аудита этого рабочего пространства.
Событие аудита	Неизменяемая запись, создаваемая после каждого создания, обновления, удаления и решения о применении — изменения политик, правок правил, разрешений подтверждений, сохранений guardrail. Значения секретов и блобы правил никогда не записываются в лог аудита.

Угрозы (однострочники)

Угроза	Что это такое
Prompt injection	Злоумышленник встраивает инструкции в контент, поглощаемый агентом (прямой: в сообщении пользователя; косвенный: в веб-странице, документе или результате инструмента), чтобы захватить поведение агента.
Jailbreak	Специально созданный промпт, пытающийся обойти обучение безопасности модели, как правило, оформляя запрос как ролевую игру, гипотетический сценарий или системное переопределение.
Excessive agency / confused deputy	Агент, наделённый более широкими полномочиями, чем требует его задача, что делает его тривиально эксплуатируемым внедрёнными инструкциями — ключевое смягчение — минимальные полномочия.
Эксфильтрация данных	Агент (или внедрённая инструкция), направляющий вызовы инструментов или исходящие запросы для утечки чувствительных данных на контролируемый злоумышленником эндпоинт. Смягчается правилами egress-контроля.
Denial-of-wallet	Агент вразнос или адверсариально запущенный, генерирующий неограниченные вышестоящие расходы на модель. Смягчается `credit_limit_usd` на ключе и правилами `cap_cost` в политике firewall.

Для полной картины того, как эти элементы управления компонуются, см. Защита ИИ-агентов с OrcaRouter.

​Глоссарий безопасности ИИ-агентов

​Идентификация и область

​Guardrails

​Agent Firewall

​Позиции

​MCP и навыки

​Комплаенс и данные

​Угрозы (однострочники)