DROP на таблице реестра, номеров карт, утекающих
в промпт — измеряется в долларах и аудиторских находках. Этот рецепт собирает
контроли, которые делают такого агента безопасным для запуска: tight-
автономия как пол, человеческое подтверждение на инструментах, двигающих
деньги, пер-прогонный кост-кап как предохранитель и устанавливаемый
комплаенс-пак SOC 2 / PCI, который материализует политику и подписанные
доказательства, которые попросит аудитор.
Всё здесь настраивается в консоли (Firewall → Posture / Policies,
Guardrails, Compliance). Эти маршруты управления используют вашу консольную
сессию, а не ключ ретрансляции — только вызовы
/v1/*, которые делает ваш
агент, несут ключ sk-orca-…. Редактирование политик требует роли
Developer; установка комплаенса / go-live / резидентность требуют
Admin рабочего пространства и платного плана.1. Почему безопасному финансовому ИИ-агенту нужно больше, чем guardrails
Проверка контента ловит номер карты в промпте. Она не останавливает агента от вызоваrefund.issue десять тысяч раз, достижения внутреннего хоста
10.x или запуска деструктивной миграции. Позиция финансового уровня должна
управлять обеими плоскостями сразу:
Текстовая плоскость
Guardrails проверяют текст запроса и ответа —
PII замаскирован, секреты заблокированы, до того, как их увидит модель.
Плоскость действий
Firewall управляет каждым вызовом инструмента,
MCP-диспетчем и исходящим запросом — allow, audit, deny, sanitize, hold
или cap cost.
2. Пол: примените tight-автономию
Начните с самой сильной одношаговой позиции. В Firewall → Posture примените уровень автономииtight
(уровень автономии) (роль
Developer). В одной транзакции она задаёт обе плоскости:
| Плоскость | Что материализует tight |
|---|---|
| Firewall | Default-deny; запрет деструктивного shell; запрет SSRF-egress (fetch-образные имена инструментов) |
| Guardrails | PII Shield + Secrets Blocker применяются на запросах |
autonomy_* и guardrail — это семя, а не чёрный ящик. У неё есть отмена в один
клик из снимка аудита.
3. Подтверждения: удержите инструменты, двигающие деньги, на человека (HITL)
Default-deny останавливает то, что вы не разрешили. Инструменты, которые вы всё же разрешаете, но которые двигают деньги —refund.issue,
payment.send, ledger.adjust — должны быть ни авто-разрешены, ни
авто-запрещены. Дайте им вердикт pending_approval, чтобы человек подписывал
вне основного канала.
В Firewall → Policies добавьте правило выше вашего default:
- Глоб инструмента:
refund.*(илиpayment.send,ledger.adjust, …) - Вердикт:
pending_approval
- Удержанный вызов возвращает HTTP 400
firewall_approval_pendingс id подтверждения; вызов не достигает инструмента. - Ревьюер разрешает его — из консоли (Developer+) или через
подписанный HMAC вебхук-колбэк к вашей собственной системе подтверждений
на
POST /api/v1/firewall/approvals/:id/callback. - Агент опрашивает
GET /api/v1/firewall/approvals/:id, затем повторно отправляет исходный вызов с одноразовым заголовкомX-OrcaRouter-Firewall-Approval— шлюз пропускает его этот один раз.
4. Предохранитель: ограничьте стоимость прогона
Финансовый агент, застрявший в цикле повторов, — это и баг корректности, и баг биллинга. Правилоcap_cost — это предохранитель убегающего цикла: оно
запрещает вызов инструмента, как только накопленные траты прогона агента
пересекают пер-правило кап в центах.
Добавьте правило с вердиктом cap_cost и потолком cap_cost_cents — например,
2000 (USD $20.00) — ограниченное инструментами вашего агента. Как только
текущие траты прогона превышают кап, дальнейшие вызовы в этом прогоне
запрещаются; свежий прогон стартует чисто.
cap_cost ограничивает траты прогона агента, а не пожизненный бюджет
одного ключа. Для жёсткого потолка на ключе установите credit_limit_usd на
самом API-ключе (0 = без лимита) — двое сочетаются: бюджет ключа ограничивает
суммарные траты, cap_cost ограничивает любой один прогон.5. Подстраховка на текстовой плоскости
tight уже применяет PII Shield и Secrets Blocker. Для финансового агента
опирайтесь на специфику:
Блокируйте номера карт и секреты из запросов
Блокируйте номера карт и секреты из запросов
Guardrail Secrets Blocker ловит API-ключи и учётные данные в промпте до
того, как их увидит модель. Для данных карт правило
pii с credit_card,
установленным в действие block (через пер-сущностный entity_actions),
отклоняет запрос целиком с HTTP 400 guardrail_blocked — и блок не
стоит квоты (input-блоки срабатывают до учёта). См.
Guardrails §5.Маскируйте PII на входе
Маскируйте PII на входе
Пресет PII Shield — это одно правило
pii, mask, стадия both.
Маскирование на стадии input работает: iban или ssn в запросе
отрисовывается как [IBAN] / [SSN] до вызова модели. (Live-
маскирование вывода/потока в дорожной карте; block на выводе
применяется на потоке и без потока уже сегодня.)Очищайте аргументы, никогда не доверяйте результатам
Очищайте аргументы, никогда не доверяйте результатам
Вердикт
sanitize Firewall редактирует совпавшие подстроки из
аргументов вызова инструмента перед пересылкой — он никогда не
переписывает то, что инструмент возвращает. Чтобы вообще не дать секрету
попасть в запрос, это задача guardrail Secrets Blocker на текстовой
плоскости.6. Комплаенс-пак: SOC 2 и PCI в одной установке
Контроли выше — это реализация. Аудитору нужны доказательства. Плоскость Compliance замыкает эту петлю: просмотрите каталог фреймворков (бесплатно, любой Member), затем установите пак как Admin рабочего пространства на платном плане. Установка пака материализует guardrails и политики firewall, которые отображаются на контроли фреймворка — так что та же установка, что даёт вам аудиторский артефакт, также поднимает реальное применение.soc2
(AICPA SOC 2 Trust Services Criteria), pci_dss (PCI DSS 4.0), glba
(Gramm-Leach-Bliley) и dora_eu (Digital Operational Resilience Act) —
наряду с фреймворками приватности (gdpr, uk_gdpr, ccpa), фреймворками
безопасности/ИИ (iso_27001, iso_42001, nist_ai_rmf, eu_ai_act,
nist_800_53) и паком owasp_llm (OWASP Top 10 for LLM Applications).
Просмотрите живой каталог для полного набора.
Отчёт, который аудитор может проверить
| Что | Деталь |
|---|---|
| Подпись | Ed25519 над хешем доказательств SHA-256 — устойчива к подделке |
| Форматы | CSV / JSON / PDF |
| Проверка | Публичная — GET /api/public/compliance/pubkey, POST /api/public/compliance/verify |
| Шаринг | Read-only ссылка для аудитора: GET /api/public/compliance/share/:token |
Бесплатный план включает один отчёт; экспорт CSV/JSON и дополнительные отчёты
платные. Генерация отчёта и go-live серверно ограничены платными планами —
каталог и представления готовности остаются бесплатными.
7. Резидентность, срок хранения и стирание данных
Позиция финансового уровня должна ответить «где доказательства и как долго вы храните логи».- Резидентность — это регион артефакта отчёта комплаенса —
us,eu,uk,ap,cnилиglobal, задаётся черезPUT /api/compliance/residency(Admin). Межрегиональные чтения отклоняются. (Это привязывает артефакт, а не место, где работает инференс.) - Срок хранения — request-логи по умолчанию 30 дней и серверно ограничены жёстким максимумом в 180 дней.
- Стирание — самообслуживаемое удаление аккаунта входит в окно 30-дневной отсрочки, затем необратимый скраб PII каскадирует через совпадения guardrail, request-логи и события firewall.
8. Проверьте, прежде чем полагаться
Не выкатывайте финансовую политику на веру. У обеих плоскостей есть песочница, которая ничего не сохраняет и ничего не диспетчеризует:- Guardrails → Test — вставьте образец, выберите стадию, посмотрите вердикт и отрендеренный (замаскированный) текст.
- Firewall → Test (Developer+) — прогоните образец вызова инструмента вхолостую и посмотрите вердикт, совпавшее правило и причину.
retry_loop и никогда ранее не виданные пути инструментов — в точности
сигналы, которые предшествуют финансовому инциденту.
Резюме
Базис Secure Agents
Что материализует
tight и как симулировать до применения.Правила Firewall
Предикаты аргументов, кост-капы, egress и последовательности в глубину.
Доказательства SOC 2
Превратите материализованные контроли в подписанный аудиторский артефакт.
PII-безопасное логирование
Держите данные карт и счетов вне ваших request-логов.
Режимы применения
Observe → shadow → enforce, безопасная выкатка для инструментов, двигающих
деньги.
Опасные вызовы инструментов
Угроза, от которой защищает allow-list инструментов финансового агента.
