FAQ по безопасности

Вы прочитали страницу контроля, и остался один вопрос перед отгрузкой. Это FAQ по безопасности ИИ-агентов — сквозные вопросы, охватывающие весь раздел Zero Trust, отвеченные в одном месте, каждый со ссылкой на справочник для глубины. Если вы совсем новичок в разделе, начните с Защиты ИИ-агентов и стека управления; эта страница предполагает, что вы знаете, что есть две плоскости применения — Guardrails (текст промпта/ответа) и Firewall (действия агента) — и просто нужно прибить края.

1. FAQ по безопасности ИИ-агентов — начните здесь

30-секундная карта того, какой контроль отвечает на какой вопрос:

Вы спрашиваете о…	Плоскость	Читать
Тексте в промптах или ответах (PII, секреты, jailbreak’и)	Guardrails	Guardrails
Вызовах инструментов, MCP, egress, навыках	Firewall	Firewall
Том, что сработало на `400`	Любая	Почему заблокировано?

Каждая блокировка безопасности на хостируемом шлюзе — HTTP 400 с машиночитаемым code. Прочитайте код первым — он разветвляет вас к нужной ленте. Полная таблица живёт в Кодах ошибок.

2. Guardrails — проверка контента

Что происходит, если на запросе не разрешается ни один guardrail?

Ничего. Разрешение такое: явный guardrail_id на ключе (если он существует и включён) → иначе default-guardrail рабочего пространства is_default → иначе нет применения. Выключенная явная привязка — это выключатель — она не откатывается к default’у. Когда ничего не разрешено, запрос побайтно идентичен рабочему пространству, которое никогда не включало эту функцию.

Стоит ли заблокированный запрос квоты?

Нет. Действие block возвращает 400 guardrail_blocked и не стоит квоты — блокировка на стадии входа срабатывает до учёта; блокировка на стадии выхода возвращает предварительно списанную квоту. Оно также помечено skip-retry: повторный прогон идентичного промпта просто снова блокируется.

Какие есть типы правил и действия?

Типы правил: keyword, regex, pii, max_chars, external, llm_judge, grounding. Действия: block (отклонить), mask (отредактировать и переслать), flag (только лог, без изменения трафика). Стадии: input, output, both. См. Guardrails для каждого.

Какие PII-сущности детектируются, и как выглядит маска?

Встроенные сущности включают email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address, плюс региональные типы (jp_mynumber, kr_rrn, cn_resident_id). Действие mask рендерит типизированный тег — jane@acme.com → [EMAIL], SSN → [SSN]. Вы можете наслоить до 25 кастомных regex-сущностей на правило (с опциональной контрольной суммой Luhn) и переопределить действие на сущность через entity_actions.

Применяется ли маскирование выхода на потоковых ответах?

Block на выходе применяется обоими способами — непотоковые ответы проверяются до возврата, а потоковый сканер обрезает поток на лету. Mask на выходе сейчас только непотоковый; на потоковом ответе чанк проходит без маскирования (in-band переписывание потока в roadmap). Маскирование на стадии входа — очистка запроса до того, как модель его увидит — живо в любом случае. Пресет PII Shield маскирует на стадии входа сегодня.

Во что обходится LLM-судья?

Правила keyword / regex / pii / max_chars не делают вызова модели и не тарифицируют ничего. Правило llm_judge прогоняет семантическую проверку через модель рабочего пространства (ограниченную judge_timeout_ms, fail-open по умолчанию) и тарифицируется отдельной подстрокой судьи. Правило grounding оценивает верность ответа против извлечённых источников запроса (порог по умолчанию 0.7) тем же способом.

Могу ли я увидеть, на что реально совпало правило?

Откройте ленту Matches (GET /api/guardrail/match, Member). Каждая строка записывает тип правила, действие, стадию и строку детали — и совпавшую подстроку только если для этого guardrail включён “Log raw content” (по умолчанию выключено, приватность-консервативная позиция). Неверная блокировка? Отметьте её как ложное срабатывание (POST /api/guardrail/match/:id/mark-fp, Admin).

Сканируете ли вы зависимости на известные CVE?

Guardrail может декорировать промпт советом по безопасности кода (например, заметкой CVE/SBOM о ссылочном пакете) без блокировки или маскирования текста. Это слой аннотации, который дополняет запрос, а не отклоняет его — отличный от действий block / mask / flag, которые вы создаёте напрямую. Подключите сканер под Integrations, чтобы это запитать.

3. Firewall — действия агента

Чем firewall отличается от guardrails по разрешению?

Одно ключевое отличие: выключенная привязанная политика firewall откатывается к default’у рабочего пространства, тогда как выключенный привязанный guardrail разрешается в none. В остальном оба привязываются через ключ (firewall_policy_id / guardrail_id) и делят откат к default’у рабочего пространства. См. Guardrails против Firewall.

Какие есть вердикты и поверхности?

Вердикты: allow, audit, deny, sanitize, pending_approval, cap_cost. default_verdict — это allow / audit / deny (audit по умолчанию). Поверхности: inbound (рекламируемые инструменты), response (выданные моделью tool_calls), mcp (tools/call), egress (исходящий host/IP/CIDR). Глоссарий вердиктов декодирует каждый.

Очищает ли `sanitize` то, что возвращает инструмент?

Нет — и это распространённое заблуждение. Вердикт sanitize редактирует совпавшие подстроки из аргументов вызова инструмента только, никогда содержимое, которое инструмент возвращает. На поверхности inbound (ещё нет аргументов времени вызова) sanitize эскалирует до deny.

Что делают уровни автономии?

Один переключатель задаёт всю вашу позицию, записывая реальные редактируемые строки autonomy_*:
• balanced (рекомендуемый старт) — default audit, deny деструктивного shell, PII Shield в audit-only (флагирует PII).
• tight — default-deny, deny деструктивного shell, deny fetch- инструментов в форме SSRF, PII Shield + Secrets Blocker применяются.
• permissive — только наблюдение.
Отмена в один клик восстанавливает предыдущее состояние из снимка аудита, который записало применение. Это один шаг — отмена недоступна, как только более позднее применение (или ручная правка политики) вытеснило этот снимок. См. Режимы применения.

Блокирует ли SSRF-пресет частные IP и cloud-metadata?

Не пресетом. SSRF-пресет автономии tight блокирует распространённые имена инструментов в форме fetch (http_fetch, web_search, fetch_url, request). Чтобы блокировать по назначению — диапазоны RFC-1918, cloud-metadata IP, конкретные CIDR — создайте своё собственное deny-правило host/CIDR на поверхности egress. Ни один пресет не поставляет вам CIDR-правила. См. Egress и эксфильтрация данных.

Как развернуть политику, не ломая трафик?

Включите shadow-режим (на политику): политика вычисляется и логируется, но понижает каждый применяющий вердикт до audit, добавляя к причине префикс [shadow] would …. Наблюдайте представления Events и Runs, затем выключите shadow, чтобы применять. Observe-режим уровня рабочего пространства (firewall_observe_mode) — взаимодополняющий диск обнаружения — он логирует непокрытые вызовы как пробелы в Discovered Tools.

Как работает подтверждение человеком (HITL)?

Вердикт pending_approval возвращает 400 firewall_approval_pending с id подтверждения. Ревьюер разрешает его из консоли (Developer+) или через HMAC вебхук-колбэк (POST /api/v1/firewall/approvals/:id/callback). Агент опрашивает GET /api/v1/firewall/approvals/:id и переотправляет исходный вызов с одноразовым заголовком X-OrcaRouter-Firewall-Approval. См. Опасные вызовы инструментов.

Что ищет детектирование аномалий?

Всплески частоты/стоимости, оценённые против обученного базиса по часу недели (14-дневного), плюс retry_loop и novel_path (переход от инструмента к инструменту, никогда не виденный раньше). Лента читаема Member; отложите аномалию на срок до 7 дней. См. Чрезмерная агентность.

4. MCP, ключи и доступ к шлюзу

Как управляются MCP-серверы?

Зарегистрируйте сервер (name, endpoint, auth_mode из none/bearer/oauth/basic, зашифрованные учётные данные), и MCP-шлюз вычисляет каждый tools/call на поверхности mcp до диспетча. Health отслеживается (ok/degraded/down); проверьте его с POST /api/workspace/firewall/mcp_servers/:id/probe. Probe также базирует рекламируемую схему инструментов сервера — позднейший дрейф переворачивает её schema status с verified на changed (сигнал «rug-pull»), и вы либо переразбазируете (одобряете), либо quarantine сервер. Так что управление — это вычисление на вызов плюс отслеживание целостности схемы и risk-band’ы навыков. См. Firewall MCP и Отравление инструментов MCP.

Что происходит с рискованным или авто-обнаруженным навыком?

Каждый навык сканируется в risk-band с режимом применения allow / quarantine / block. Карантинный навык удерживается для подтверждения; авто-обнаруженные навыки остаются карантинными, пока человек их не проверит. Режим едет поверх вердикта правила.

Какие поля ключа запирают агента?

model_limits (+ model_limits_enabled), allow_ips, credit_limit_usd (0 = безлимит), expired_time (-1 = никогда), environment, guardrail_id, firewall_policy_id и is_firewall_gateway. Комбинируйте их для минимальной агентности — см. Область, ключи и политики. Ключи маскируются при отображении.

Почему я получаю 403 на `/api/v1/firewall/*`?

Эти маршруты шлюза (POST /evaluate, POST /evaluate_plan, ANY /mcp) требуют ключ с is_firewall_gateway=true — выделенный токен с областью firewall-gateway, а не ваш relay-ключ sk-orca-…. Выпуск такого и чтение его plaintext — Admin+.

В чём разница между настройкой и вызовом?

Настройка работает в консоли — guardrails, политики firewall, MCP-серверы и комплаенс управляются под вашим session/access-токеном (UserAuth), и каждая запись защищена ролью (Developer+ для записей политики и guardrail). Только ваш relay-трафик /v1/* использует ключ sk-orca-…; только хуки шлюза /api/v1/firewall/* используют токен с областью firewall-gateway.

5. Комплаенс, резидентность и данные

Какие фреймворки покрыты?

Каталог включает SOC 2, HIPAA, GDPR, UK GDPR, EU AI Act, ISO 27001, ISO 42001, NIST AI RMF, PCI DSS, CCPA, GLBA, OWASP Top 10 для LLM-приложений (как маппинг контролей), плюс региональные профили (PIPL, APPI, PIPA, LGPD, PIPEDA, DPDP, APP Австралии, Singapore PDPA, DORA и несколько законов штатов США). Просмотрите каталог, паки и готовность — всё Member, бесплатно — на /api/compliance/*.

Почему установка/отчёт под гейтом?

Просмотр бесплатен; установка пака, генерация отчёта, выход в live и установка резидентности требуют Admin рабочего пространства и платного плана (под серверным гейтом). Установка пака (POST /api/compliance/packs/:key/install) материализует реальные guardrails + политики firewall, которые вы затем можете редактировать.

Верифицируемы ли отчёты комплаенса?

Да. Отчёт подписан Ed25519 + SHA-256 и публично верифицируем: получите публичный ключ (GET /api/public/compliance/pubkey), верифицируйте отчёт (POST /api/public/compliance/verify) или передайте аудитору share-ссылку (GET /api/public/compliance/share/:token). Экспорты — CSV / JSON / PDF.

Что реально прибивает резидентность данных?

Это регион артефакта-отчёта комплаенса (us, eu, uk, ap, cn, global), задаваемый через PUT /api/compliance/residency (Admin); кросс-региональное чтение удерживается. Это не гео-привязка ваших инференс-данных. См. Разделённая ответственность.

Как долго хранятся журналы, и как стереть данные?

Хранение журналов запросов по умолчанию 30 дней и ограничено сервером до жёсткого максимума 180 дней. Удаление аккаунта удерживается на льготное окно (по умолчанию 30 дней) до того, как запустится необратимая вычистка PII; эта вычистка каскадно удаляет полезные нагрузки журналов запросов в Mongo, совпадения guardrail и события firewall, атрибутированные вам. Архивация рабочего пространства каскадно удаляет те же три коллекции для этого рабочего пространства. См. Раскрытие PII.

400 от контроля безопасности — это не баг в вашем промпте. Это политика, делающая свою работу. Не повторяйте — эти коды skip-retry. Проследите правило, затем решите, исправить ли вызов или ослабить политику: Почему заблокировано?.

6. Всё ещё застряли?

Коды ошибок

Каждая блокировка, удержание и отказ, которые шлюз может вернуть.

Почему заблокировано?

Прочитайте код, откройте нужную ленту, найдите точное правило.

Guardrail API

Маршруты, роли и полезные нагрузки для контентных политик.

Firewall API

Консольные маршруты и маршруты шлюза для управления действиями.

Compliance API

Эндпоинты каталога, установки, отчёта и резидентности.

Глоссарий

Каждый термин, используемый по всей документации Zero Trust.

Об угрозах, которые останавливают эти контроли, начните с модели угроз. Для чистого базиса следуйте Базовому уровню Secure Agents.

​1. FAQ по безопасности ИИ-агентов — начните здесь

​2. Guardrails — проверка контента

​3. Firewall — действия агента

​4. MCP, ключи и доступ к шлюзу

​5. Комплаенс, резидентность и данные

​6. Всё ещё застряли?

Коды ошибок

Почему заблокировано?

Guardrail API

Firewall API

Compliance API

Глоссарий

1. FAQ по безопасности ИИ-агентов — начните здесь

2. Guardrails — проверка контента

3. Firewall — действия агента

4. MCP, ключи и доступ к шлюзу

5. Комплаенс, резидентность и данные

6. Всё ещё застряли?