https://api.orcarouter.ai/v1/... を呼び続けます。
モデルは初めてですか? 各姿勢が機械的に何をするかは
強制モードを、各自律性レベルが何を設定するかは
Secure Agents ベースラインを読んで
ください。このページはシーケンス — スイッチを切り替える順序です。
1. 3 つの動きで AI セキュリティロールアウト
ロールアウト全体は、3 つのステップで自律性を安全性と交換し、それぞれが次の前に 実トラフィックに対して検証されます:Observe
すべてを許可し、すべてをログします。カバーされていないツール呼び出しは Discovered
Tools に着地します;ガードレールの
flag ルールはトラフィックを変えずにマッチを
記録します。あなたはエージェントの実際の形を学びます。Shadow
実在のポリシーがすべての呼び出しを評価しますが、すべての強制判定は
audit に
格下げされ、[shadow] would … とログされます。何も実際にはブロックされずに、何が
ブロックされるかを正確に見ます。Enforce
シャドウオフ。
deny はブロックし、mask はリダクトし、pending_approval は保留
します。自律性は広い(balanced)からタイト(tight)へ進み、あなたのエージェントは
統制されます。2. 動き 1 — observe(自律性 = permissive)
可能な限り広く始めます。Firewall → Posture(Developer+)から、あるいはPOST /api/workspace/firewall/autonomy で permissive 自律性レベルを適用します。
これはワークスペースの観察モードを有効にし、強制ポリシーを残さないため、すべての
呼び出しが許可され、すべてのカバーされていない呼び出しがカバレッジギャップとして
ログされます。
- Firewall → Discovered Tools(Member) — あなたのエージェントが呼び出すすべての ツール、covered または gap とフラグ。これがあなたのルールの入力です:あなたは 仮説ではなく、実際に起こるトラフィックのためにポリシーを書こうとしています。
- Guardrails → Matches(Member) —
flagアクションのルールを追加していれば、それらが 記録するすべてのマッチを、リクエストに触れずに。
3. 動き 2 — shadow(実在のポリシー、ブロックゼロ)
さて、あなたが実際に望むポリシーを作成し — ツールグロブ、引数句、egress リスト、cap_cost 上限 — アタッチする前に shadow_mode をオンにします。(ルールは
ファイアウォールルールから構築します;完全なポリシー
モデルはファイアウォールリファレンスにあります。)
shadow_mode: true だと、その deny とその cap_cost は両方とも評価時に audit に
格下げされます — エンジンは実際の判定を計算し、[shadow] would … を前置してログし、
呼び出しを通します。ポリシーを、ロールアウトするキーにアタッチする(キーに
firewall_policy_id を設定)か、ワークスペースデフォルトにします。
それから Firewall → Events / Runs(Developer+)を [shadow] プレフィックスで
フィルタして読み、両側を確認します:
意図した場所で発火する
意図した場所で発火する
すべての
shell.exec 呼び出しが [shadow] would deny を示します。上限を超える
すべての run が [shadow] would cap_cost を示します。ポリシーは、それのために
構築したトラフィックを見ています。意図しなかった場所では発火しない
意図しなかった場所では発火しない
正当なツールが would-block 判定で現れません。これが誤検出チェックです — シャドウが
存在する理由です。必要とするツールがフラグされた場合、強制する前にルールを修正して
再監視します。
4. 動き 3 — enforce(自律性 balanced、それから tight)
シャドウログが正しく見えたら、1 つではなく2 段階で強制します。いきなりデフォルト deny に飛ばないでください。 まず、balanced。 これが推奨される最初の強制姿勢です:ファイアウォールのデフォルト
判定は audit ですが、最も破壊的なアクション(破壊的シェルなど)は deny され、
PII Shield ガードレールは audit のみで実行されます — PII をまだマスクせずにflag
します。あなたはいまや、残りを観察しながら最悪のものをブロックしています。
同じ動きで、あなた自身のポリシーの shadow_mode をオフにして、その deny /
cap_cost 判定がベースラインと並んでライブになるようにします。
[shadow] プレフィックスなしで現れ
ます。拒否されたツール呼び出しは HTTP 400 firewall_blocked を返します;それは
skip-retry であり、モデルトークンを消費しません。
それから、tight。 balanced が静かになったら、デフォルト deny に進みます。tight
レベルはデフォルトで deny し、破壊的シェルおよび SSRF egress を deny し、そして
PII Shield + Secrets Blocker を強制します — PII はモデルが見る前にリクエストで
マスクされ、あなたのリクエスト内のシークレットはブロックされます。ブロックされた
プロンプトは HTTP 400 guardrail_blocked を返し、クォータを消費せず、skip-retry
です。
| ステージ | ファイアウォール(アクション) | ガードレール(テキスト) | あなたが証明していること |
|---|---|---|---|
permissive | Observe;何もブロックしない | flag のみ | 実トラフィックの形 |
balanced | デフォルト audit;破壊的シェル deny | PII を flag | 最悪のケースが止められる |
tight | デフォルト deny;シェル + fetch 形ツール(SSRF)deny | PII を mask、secrets ブロック | 完全なゼロトラスト |
PII のストリーミングに関する注意点。
tight 下では、PII Shield はモデルが見る前に
リクエストで PII をマスクします — それはライブです。ストリーミングレスポンスの
出力側マスキングはまだライブではありません;出力 block はストリーミングで強制
されます(スキャナがストリームを切断します)。モデル出力のリダクトに依存するなら、
ガードレールの Test タブで、あなたのステージ/ストリームの組み合わせをまず検証して
ください。ガードレールを参照。5. 脱出ハッチ — ワンクリックの取り消し
すべての自律性変更は、あなたの直前の姿勢をスナップショットするひとつのトランザクション なので、Firewall → Posture(またはPOST /api/workspace/firewall/autonomy/undo/:audit_id)からまっすぐロールバックできます。
あるいは、単により柔らかいレベルを再適用することもできます — tight を balanced に、
または balanced を permissive に — いつでも。
6. 各動きの判定がどこから来るか
ロールアウトは、各姿勢が明示的で観察可能なメカニズムにマッピングされるため、あなたが 求めなかったものを決してブロックしません:| 姿勢 | メカニズム | 結果 |
|---|---|---|
| Observe | ワークスペース firewall_observe_mode オン + ガードレール flag | 許可 + ギャップ / マッチをログ |
| Shadow | ポリシーごとの shadow_mode | 実際の判定を計算、audit に格下げ、[shadow] would … とログ |
| Enforce | shadow_mode オフ + tight/balanced 自律性 | deny / mask / cap_cost がライブになる |
audit 判定、flag アクション、そして shadow_mode — は
別個のスイッチであり、強制モードに並べて
ドキュメント化されています。
7. 次のステップ
強制モード
observe、shadow、enforce の背後にあるメカニズムマップ。
Secure Agents ベースライン
各自律性レベルが何を設定するか、そしてまずそれをシミュレートする方法。
自律エージェントを手懐ける
強制した後の次のステップ:コスト上限、異常検出、そして承認。
エージェントファイアウォール
ポリシー、ルール、判定、シャドウモード、そして MCP ゲートウェイを完全に。
