1. FAQ по безопасности ИИ-агентов — начните здесь
30-секундная карта того, какой контроль отвечает на какой вопрос:| Вы спрашиваете о… | Плоскость | Читать |
|---|---|---|
| Тексте в промптах или ответах (PII, секреты, jailbreak’и) | Guardrails | Guardrails |
| Вызовах инструментов, MCP, egress, навыках | Firewall | Firewall |
Том, что сработало на 400 | Любая | Почему заблокировано? |
2. Guardrails — проверка контента
Что происходит, если на запросе не разрешается ни один guardrail?
Что происходит, если на запросе не разрешается ни один guardrail?
guardrail_id на ключе (если он существует и
включён) → иначе default-guardrail рабочего пространства is_default → иначе
нет применения. Выключенная явная привязка — это выключатель — она не
откатывается к default’у. Когда ничего не разрешено, запрос побайтно
идентичен рабочему пространству, которое никогда не включало эту функцию.Стоит ли заблокированный запрос квоты?
Стоит ли заблокированный запрос квоты?
block возвращает 400 guardrail_blocked и не стоит квоты —
блокировка на стадии входа срабатывает до учёта; блокировка на стадии выхода
возвращает предварительно списанную квоту. Оно также помечено
skip-retry: повторный прогон идентичного промпта просто снова
блокируется.Какие есть типы правил и действия?
Какие есть типы правил и действия?
keyword, regex, pii, max_chars, external,
llm_judge, grounding. Действия: block (отклонить), mask
(отредактировать и переслать), flag (только лог, без изменения трафика).
Стадии: input, output, both. См. Guardrails
для каждого.Какие PII-сущности детектируются, и как выглядит маска?
Какие PII-сущности детектируются, и как выглядит маска?
email, phone, credit_card, ssn,
ip, iban, mac_address, jwt, aws_access_key, api_key_openai,
bitcoin_address, плюс региональные типы (jp_mynumber, kr_rrn,
cn_resident_id). Действие mask рендерит типизированный тег —
jane@acme.com → [EMAIL], SSN → [SSN]. Вы можете наслоить до
25 кастомных regex-сущностей на правило (с опциональной контрольной суммой
Luhn) и переопределить действие на сущность через entity_actions.Применяется ли маскирование выхода на потоковых ответах?
Применяется ли маскирование выхода на потоковых ответах?
Во что обходится LLM-судья?
Во что обходится LLM-судья?
keyword / regex / pii / max_chars не делают вызова модели и не
тарифицируют ничего. Правило llm_judge прогоняет семантическую проверку
через модель рабочего пространства (ограниченную judge_timeout_ms,
fail-open по умолчанию) и тарифицируется отдельной подстрокой судьи.
Правило grounding оценивает верность ответа против извлечённых источников
запроса (порог по умолчанию 0.7) тем же способом.Могу ли я увидеть, на что реально совпало правило?
Могу ли я увидеть, на что реально совпало правило?
GET /api/guardrail/match, Member). Каждая строка
записывает тип правила, действие, стадию и строку детали — и совпавшую
подстроку только если для этого guardrail включён “Log raw content” (по
умолчанию выключено, приватность-консервативная позиция). Неверная блокировка?
Отметьте её как ложное срабатывание (POST /api/guardrail/match/:id/mark-fp,
Admin).Сканируете ли вы зависимости на известные CVE?
Сканируете ли вы зависимости на известные CVE?
block / mask / flag, которые вы создаёте напрямую. Подключите
сканер под Integrations, чтобы это запитать.3. Firewall — действия агента
Чем firewall отличается от guardrails по разрешению?
Чем firewall отличается от guardrails по разрешению?
firewall_policy_id / guardrail_id) и делят откат к default’у рабочего
пространства. См.
Guardrails против Firewall.Какие есть вердикты и поверхности?
Какие есть вердикты и поверхности?
allow, audit, deny, sanitize, pending_approval,
cap_cost. default_verdict — это allow / audit / deny (audit по
умолчанию). Поверхности: inbound (рекламируемые инструменты), response
(выданные моделью tool_calls), mcp (tools/call), egress (исходящий
host/IP/CIDR).
Глоссарий вердиктов декодирует
каждый.Очищает ли `sanitize` то, что возвращает инструмент?
Очищает ли `sanitize` то, что возвращает инструмент?
sanitize редактирует
совпавшие подстроки из аргументов вызова инструмента только, никогда
содержимое, которое инструмент возвращает. На поверхности inbound (ещё нет
аргументов времени вызова) sanitize эскалирует до deny.Что делают уровни автономии?
Что делают уровни автономии?
autonomy_*:•
balanced (рекомендуемый старт) — default audit, deny
деструктивного shell, PII Shield в audit-only (флагирует PII).•
tight — default-deny, deny деструктивного shell, deny fetch-
инструментов в форме SSRF, PII Shield + Secrets Blocker применяются.•
permissive — только наблюдение.Отмена в один клик восстанавливает предыдущее состояние из снимка аудита, который записало применение. Это один шаг — отмена недоступна, как только более позднее применение (или ручная правка политики) вытеснило этот снимок. См. Режимы применения.
Блокирует ли SSRF-пресет частные IP и cloud-metadata?
Блокирует ли SSRF-пресет частные IP и cloud-metadata?
tight блокирует распространённые имена
инструментов в форме fetch (http_fetch, web_search, fetch_url,
request). Чтобы блокировать по назначению — диапазоны RFC-1918,
cloud-metadata IP, конкретные CIDR — создайте своё собственное deny-правило
host/CIDR на поверхности egress. Ни один пресет не поставляет вам CIDR-правила.
См. Egress и эксфильтрация данных.Как развернуть политику, не ломая трафик?
Как развернуть политику, не ломая трафик?
audit, добавляя к причине префикс
[shadow] would …. Наблюдайте представления Events и Runs, затем
выключите shadow, чтобы применять. Observe-режим уровня рабочего
пространства (firewall_observe_mode) — взаимодополняющий диск обнаружения —
он логирует непокрытые вызовы как пробелы в Discovered Tools.Как работает подтверждение человеком (HITL)?
Как работает подтверждение человеком (HITL)?
pending_approval возвращает 400 firewall_approval_pending с id
подтверждения. Ревьюер разрешает его из консоли (Developer+) или через HMAC
вебхук-колбэк (POST /api/v1/firewall/approvals/:id/callback). Агент опрашивает
GET /api/v1/firewall/approvals/:id и переотправляет исходный вызов с
одноразовым заголовком X-OrcaRouter-Firewall-Approval. См.
Опасные вызовы инструментов.Что ищет детектирование аномалий?
Что ищет детектирование аномалий?
retry_loop и novel_path (переход от
инструмента к инструменту, никогда не виденный раньше). Лента читаема Member;
отложите аномалию на срок до 7 дней. См.
Чрезмерная агентность.4. MCP, ключи и доступ к шлюзу
Как управляются MCP-серверы?
Как управляются MCP-серверы?
name, endpoint, auth_mode из
none/bearer/oauth/basic, зашифрованные учётные данные), и MCP-шлюз
вычисляет каждый tools/call на поверхности mcp до диспетча. Health
отслеживается (ok/degraded/down); проверьте его с
POST /api/workspace/firewall/mcp_servers/:id/probe. Probe также базирует
рекламируемую схему инструментов сервера — позднейший дрейф переворачивает её
schema status с verified на changed (сигнал «rug-pull»), и вы либо
переразбазируете (одобряете), либо quarantine сервер. Так что управление —
это вычисление на вызов плюс отслеживание целостности схемы и
risk-band’ы навыков. См. Firewall MCP и
Отравление инструментов MCP.Что происходит с рискованным или авто-обнаруженным навыком?
Что происходит с рискованным или авто-обнаруженным навыком?
Какие поля ключа запирают агента?
Какие поля ключа запирают агента?
model_limits (+ model_limits_enabled), allow_ips,
credit_limit_usd (0 = безлимит), expired_time (-1 = никогда),
environment, guardrail_id, firewall_policy_id и
is_firewall_gateway. Комбинируйте их для минимальной агентности — см.
Область, ключи и политики.
Ключи маскируются при отображении.Почему я получаю 403 на `/api/v1/firewall/*`?
Почему я получаю 403 на `/api/v1/firewall/*`?
POST /evaluate, POST /evaluate_plan,
ANY /mcp) требуют ключ с is_firewall_gateway=true — выделенный токен с
областью firewall-gateway, а не ваш relay-ключ sk-orca-…. Выпуск такого и
чтение его plaintext — Admin+.В чём разница между настройкой и вызовом?
В чём разница между настройкой и вызовом?
/v1/* использует ключ sk-orca-…; только хуки шлюза
/api/v1/firewall/* используют токен с областью firewall-gateway.5. Комплаенс, резидентность и данные
Какие фреймворки покрыты?
Какие фреймворки покрыты?
/api/compliance/*.Почему установка/отчёт под гейтом?
Почему установка/отчёт под гейтом?
POST /api/compliance/packs/:key/install) материализует реальные
guardrails + политики firewall, которые вы затем можете редактировать.Верифицируемы ли отчёты комплаенса?
Верифицируемы ли отчёты комплаенса?
GET /api/public/compliance/pubkey), верифицируйте
отчёт (POST /api/public/compliance/verify) или передайте аудитору
share-ссылку (GET /api/public/compliance/share/:token). Экспорты —
CSV / JSON / PDF.Что реально прибивает резидентность данных?
Что реально прибивает резидентность данных?
us, eu,
uk, ap, cn, global), задаваемый через PUT /api/compliance/residency
(Admin); кросс-региональное чтение удерживается. Это не гео-привязка ваших
инференс-данных. См.
Разделённая ответственность.Как долго хранятся журналы, и как стереть данные?
Как долго хранятся журналы, и как стереть данные?
