Перейти к основному содержанию
Вы прочитали страницу контроля, и остался один вопрос перед отгрузкой. Это FAQ по безопасности ИИ-агентов — сквозные вопросы, охватывающие весь раздел Zero Trust, отвеченные в одном месте, каждый со ссылкой на справочник для глубины. Если вы совсем новичок в разделе, начните с Защиты ИИ-агентов и стека управления; эта страница предполагает, что вы знаете, что есть две плоскости применения — Guardrails (текст промпта/ответа) и Firewall (действия агента) — и просто нужно прибить края.

1. FAQ по безопасности ИИ-агентов — начните здесь

30-секундная карта того, какой контроль отвечает на какой вопрос:
Вы спрашиваете о…ПлоскостьЧитать
Тексте в промптах или ответах (PII, секреты, jailbreak’и)GuardrailsGuardrails
Вызовах инструментов, MCP, egress, навыкахFirewallFirewall
Том, что сработало на 400ЛюбаяПочему заблокировано?
Каждая блокировка безопасности на хостируемом шлюзе — HTTP 400 с машиночитаемым code. Прочитайте код первым — он разветвляет вас к нужной ленте. Полная таблица живёт в Кодах ошибок.

2. Guardrails — проверка контента

Ничего. Разрешение такое: явный guardrail_id на ключе (если он существует и включён) → иначе default-guardrail рабочего пространства is_default → иначе нет применения. Выключенная явная привязка — это выключатель — она не откатывается к default’у. Когда ничего не разрешено, запрос побайтно идентичен рабочему пространству, которое никогда не включало эту функцию.
Нет. Действие block возвращает 400 guardrail_blocked и не стоит квоты — блокировка на стадии входа срабатывает до учёта; блокировка на стадии выхода возвращает предварительно списанную квоту. Оно также помечено skip-retry: повторный прогон идентичного промпта просто снова блокируется.
Типы правил: keyword, regex, pii, max_chars, external, llm_judge, grounding. Действия: block (отклонить), mask (отредактировать и переслать), flag (только лог, без изменения трафика). Стадии: input, output, both. См. Guardrails для каждого.
Встроенные сущности включают email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address, плюс региональные типы (jp_mynumber, kr_rrn, cn_resident_id). Действие mask рендерит типизированный тег — jane@acme.com[EMAIL], SSN → [SSN]. Вы можете наслоить до 25 кастомных regex-сущностей на правило (с опциональной контрольной суммой Luhn) и переопределить действие на сущность через entity_actions.
Block на выходе применяется обоими способами — непотоковые ответы проверяются до возврата, а потоковый сканер обрезает поток на лету. Mask на выходе сейчас только непотоковый; на потоковом ответе чанк проходит без маскирования (in-band переписывание потока в roadmap). Маскирование на стадии входа — очистка запроса до того, как модель его увидит — живо в любом случае. Пресет PII Shield маскирует на стадии входа сегодня.
Правила keyword / regex / pii / max_chars не делают вызова модели и не тарифицируют ничего. Правило llm_judge прогоняет семантическую проверку через модель рабочего пространства (ограниченную judge_timeout_ms, fail-open по умолчанию) и тарифицируется отдельной подстрокой судьи. Правило grounding оценивает верность ответа против извлечённых источников запроса (порог по умолчанию 0.7) тем же способом.
Откройте ленту Matches (GET /api/guardrail/match, Member). Каждая строка записывает тип правила, действие, стадию и строку детали — и совпавшую подстроку только если для этого guardrail включён “Log raw content” (по умолчанию выключено, приватность-консервативная позиция). Неверная блокировка? Отметьте её как ложное срабатывание (POST /api/guardrail/match/:id/mark-fp, Admin).
Guardrail может декорировать промпт советом по безопасности кода (например, заметкой CVE/SBOM о ссылочном пакете) без блокировки или маскирования текста. Это слой аннотации, который дополняет запрос, а не отклоняет его — отличный от действий block / mask / flag, которые вы создаёте напрямую. Подключите сканер под Integrations, чтобы это запитать.

3. Firewall — действия агента

Одно ключевое отличие: выключенная привязанная политика firewall откатывается к default’у рабочего пространства, тогда как выключенный привязанный guardrail разрешается в none. В остальном оба привязываются через ключ (firewall_policy_id / guardrail_id) и делят откат к default’у рабочего пространства. См. Guardrails против Firewall.
Вердикты: allow, audit, deny, sanitize, pending_approval, cap_cost. default_verdict — это allow / audit / deny (audit по умолчанию). Поверхности: inbound (рекламируемые инструменты), response (выданные моделью tool_calls), mcp (tools/call), egress (исходящий host/IP/CIDR). Глоссарий вердиктов декодирует каждый.
Нет — и это распространённое заблуждение. Вердикт sanitize редактирует совпавшие подстроки из аргументов вызова инструмента только, никогда содержимое, которое инструмент возвращает. На поверхности inbound (ещё нет аргументов времени вызова) sanitize эскалирует до deny.
Один переключатель задаёт всю вашу позицию, записывая реальные редактируемые строки autonomy_*:
balanced (рекомендуемый старт) — default audit, deny деструктивного shell, PII Shield в audit-only (флагирует PII).
tight — default-deny, deny деструктивного shell, deny fetch- инструментов в форме SSRF, PII Shield + Secrets Blocker применяются.
permissive — только наблюдение.
Отмена в один клик восстанавливает предыдущее состояние из снимка аудита, который записало применение. Это один шаг — отмена недоступна, как только более позднее применение (или ручная правка политики) вытеснило этот снимок. См. Режимы применения.
Не пресетом. SSRF-пресет автономии tight блокирует распространённые имена инструментов в форме fetch (http_fetch, web_search, fetch_url, request). Чтобы блокировать по назначению — диапазоны RFC-1918, cloud-metadata IP, конкретные CIDR — создайте своё собственное deny-правило host/CIDR на поверхности egress. Ни один пресет не поставляет вам CIDR-правила. См. Egress и эксфильтрация данных.
Включите shadow-режим (на политику): политика вычисляется и логируется, но понижает каждый применяющий вердикт до audit, добавляя к причине префикс [shadow] would …. Наблюдайте представления Events и Runs, затем выключите shadow, чтобы применять. Observe-режим уровня рабочего пространства (firewall_observe_mode) — взаимодополняющий диск обнаружения — он логирует непокрытые вызовы как пробелы в Discovered Tools.
Вердикт pending_approval возвращает 400 firewall_approval_pending с id подтверждения. Ревьюер разрешает его из консоли (Developer+) или через HMAC вебхук-колбэк (POST /api/v1/firewall/approvals/:id/callback). Агент опрашивает GET /api/v1/firewall/approvals/:id и переотправляет исходный вызов с одноразовым заголовком X-OrcaRouter-Firewall-Approval. См. Опасные вызовы инструментов.
Всплески частоты/стоимости, оценённые против обученного базиса по часу недели (14-дневного), плюс retry_loop и novel_path (переход от инструмента к инструменту, никогда не виденный раньше). Лента читаема Member; отложите аномалию на срок до 7 дней. См. Чрезмерная агентность.

4. MCP, ключи и доступ к шлюзу

Зарегистрируйте сервер (name, endpoint, auth_mode из none/bearer/oauth/basic, зашифрованные учётные данные), и MCP-шлюз вычисляет каждый tools/call на поверхности mcp до диспетча. Health отслеживается (ok/degraded/down); проверьте его с POST /api/workspace/firewall/mcp_servers/:id/probe. Probe также базирует рекламируемую схему инструментов сервера — позднейший дрейф переворачивает её schema status с verified на changed (сигнал «rug-pull»), и вы либо переразбазируете (одобряете), либо quarantine сервер. Так что управление — это вычисление на вызов плюс отслеживание целостности схемы и risk-band’ы навыков. См. Firewall MCP и Отравление инструментов MCP.
Каждый навык сканируется в risk-band с режимом применения allow / quarantine / block. Карантинный навык удерживается для подтверждения; авто-обнаруженные навыки остаются карантинными, пока человек их не проверит. Режим едет поверх вердикта правила.
model_limits (+ model_limits_enabled), allow_ips, credit_limit_usd (0 = безлимит), expired_time (-1 = никогда), environment, guardrail_id, firewall_policy_id и is_firewall_gateway. Комбинируйте их для минимальной агентности — см. Область, ключи и политики. Ключи маскируются при отображении.
Эти маршруты шлюза (POST /evaluate, POST /evaluate_plan, ANY /mcp) требуют ключ с is_firewall_gateway=true — выделенный токен с областью firewall-gateway, а не ваш relay-ключ sk-orca-…. Выпуск такого и чтение его plaintext — Admin+.
Настройка работает в консоли — guardrails, политики firewall, MCP-серверы и комплаенс управляются под вашим session/access-токеном (UserAuth), и каждая запись защищена ролью (Developer+ для записей политики и guardrail). Только ваш relay-трафик /v1/* использует ключ sk-orca-…; только хуки шлюза /api/v1/firewall/* используют токен с областью firewall-gateway.

5. Комплаенс, резидентность и данные

Каталог включает SOC 2, HIPAA, GDPR, UK GDPR, EU AI Act, ISO 27001, ISO 42001, NIST AI RMF, PCI DSS, CCPA, GLBA, OWASP Top 10 для LLM-приложений (как маппинг контролей), плюс региональные профили (PIPL, APPI, PIPA, LGPD, PIPEDA, DPDP, APP Австралии, Singapore PDPA, DORA и несколько законов штатов США). Просмотрите каталог, паки и готовность — всё Member, бесплатно — на /api/compliance/*.
Просмотр бесплатен; установка пака, генерация отчёта, выход в live и установка резидентности требуют Admin рабочего пространства и платного плана (под серверным гейтом). Установка пака (POST /api/compliance/packs/:key/install) материализует реальные guardrails + политики firewall, которые вы затем можете редактировать.
Да. Отчёт подписан Ed25519 + SHA-256 и публично верифицируем: получите публичный ключ (GET /api/public/compliance/pubkey), верифицируйте отчёт (POST /api/public/compliance/verify) или передайте аудитору share-ссылку (GET /api/public/compliance/share/:token). Экспорты — CSV / JSON / PDF.
Это регион артефакта-отчёта комплаенса (us, eu, uk, ap, cn, global), задаваемый через PUT /api/compliance/residency (Admin); кросс-региональное чтение удерживается. Это не гео-привязка ваших инференс-данных. См. Разделённая ответственность.
Хранение журналов запросов по умолчанию 30 дней и ограничено сервером до жёсткого максимума 180 дней. Удаление аккаунта удерживается на льготное окно (по умолчанию 30 дней) до того, как запустится необратимая вычистка PII; эта вычистка каскадно удаляет полезные нагрузки журналов запросов в Mongo, совпадения guardrail и события firewall, атрибутированные вам. Архивация рабочего пространства каскадно удаляет те же три коллекции для этого рабочего пространства. См. Раскрытие PII.
400 от контроля безопасности — это не баг в вашем промпте. Это политика, делающая свою работу. Не повторяйте — эти коды skip-retry. Проследите правило, затем решите, исправить ли вызов или ослабить политику: Почему заблокировано?.

6. Всё ещё застряли?

Коды ошибок

Каждая блокировка, удержание и отказ, которые шлюз может вернуть.

Почему заблокировано?

Прочитайте код, откройте нужную ленту, найдите точное правило.

Guardrail API

Маршруты, роли и полезные нагрузки для контентных политик.

Firewall API

Консольные маршруты и маршруты шлюза для управления действиями.

Compliance API

Эндпоинты каталога, установки, отчёта и резидентности.

Глоссарий

Каждый термин, используемый по всей документации Zero Trust.
Об угрозах, которые останавливают эти контроли, начните с модели угроз. Для чистого базиса следуйте Базовому уровню Secure Agents.