shell.exec を決して見ないテキストスクリーニング、あるいはプロンプトで出ていく
クレジットカード番号に決して気づかないツールファイアウォール。
完全なエージェントセキュリティベースラインへの最速の方法は、両プレーンを一度に
設定することです。OrcaRouter の自律性コントロール — Secure Agents ベースライン —
がまさにそれを行います:ファイアウォールポリシーと
ガードレールを一緒に、ひとつのトランザクションで、ワンクリックの
取り消しとともに書き込む単一のワークスペースレベルのスイッチです。保護されるために
ルールを作成しません;レベルを選び、後でチューニングします。
2 つのプレーンは補完的であり、冗長ではありません。ガードレールはプロンプト/レスポンスの
テキスト(PII、シークレット、jailbreak とインジェクション意図)をスクリーニングします;
ファイアウォールはエージェントが取るアクション(どのツール、MCP 呼び出し、ホスト)を
統制します。どちらか一方だけでは、もう一方が閉じるギャップが残ります —
ガードレール vs. ファイアウォールを参照。
1. なぜ 1 つのベースラインが 2 つの中途半端に勝るか
実際のエージェント実行は、単一のリクエストで両プレーンを横切ります。モデルがプロンプト (テキスト)を読み、db.query を呼ぶことを決め(アクション)、ツールの結果が次のターンに
フィードバックされます(再びテキスト)。1 つのプレーンだけを保護すると、もう一方が
無防備になります:
ファイアウォールのみ
破壊的シェルを deny しますが、プロンプトは依然として顧客の SSN をモデルに直接
運びます — そしてツール引数は依然として API キーを漏らします。
ガードレールのみ
プロンプトの PII をマスクしますが、エージェントは依然として
rm -rf を呼んだり、
クラウドメタデータエンドポイントに到達したり、暴走ツールでループしたりします。2. エージェントセキュリティベースライン:3 つのレベル
各レベルは同じ 2 つのプレーンをカバーします。1 つを選びます;それがあなたの床であり、 後でルールで精度を加えます。| レベル | ファイアウォール | ガードレール | 観察モード |
|---|---|---|---|
tight | デフォルト deny;破壊的シェル + フェッチ形のツールを deny | PII Shield + Secrets Blocker を強制 | オフ |
balanced | デフォルト audit;破壊的シェルを deny | PII Shield は audit のみ(PII をフラグ) | オフ |
permissive | 強制ポリシーなし | なし | オン — すべての呼び出しをギャップとしてログ |
`tight` がアクションプレーンで何を deny するか
`tight` がアクションプレーンで何を deny するか
tight はファイアウォールポリシーのデフォルト判定を deny に刻印し、それから
破壊的なコマンドを運ぶシェル/exec ツール名 — shell.*、bash、cmd、
powershell、exec — と、SSRF を運ぶフェッチ形のツール名 — http_fetch、
web_search、fetch_url、request(とそれらの <server>.* MCP 名前空間化
バリアント) — に対する deny ルールを重ねます。これらのツール名を deny します;
CIDR やクラウドメタデータの egress ルールは出荷しません。169.254.169.254 や
RFC-1918 範囲を宛先で deny したい場合は、独自の egress ルールを作成します —
Egress 制御を参照。`tight` がコンテンツプレーンで何を強制するか
`tight` がコンテンツプレーンで何を強制するか
PII Shield と Secrets Blocker ガードレールの両方がアクティブで強制して
います。PII Shield はモデルに到達する前にリクエスト上の PII をマスクします;
Secrets Blocker はリクエスト内の認証情報を捕捉します。ツール引数内のシークレットは、
リクエスト上でこのガードレールによって捕捉されます — ファイアウォールはデフォルトでは
それらを剥がしません。
なぜ `balanced` が推奨される開始点か
なぜ `balanced` が推奨される開始点か
balanced はすべてを audit し(デフォルト判定 audit)、エージェントの実際の挙動を
見られるようにしつつ、最も破壊的な単一クラス — 破壊的シェル — を依然として deny
します。PII Shield は audit のみのモードで実行されます(PII をフラグ、ブロックしない)。
予期しないブロックのリスクをほぼゼロにして完全な証跡を得て、それから当て推量ではなく
可視性から締めます。3. 具体例 1 つ:balanced を適用し、両方のフィードを監視
レベルの適用は単一のコンソールアクション(Firewall → Posture)または 1 つの API
呼び出しです。ルートはセッション下で実行され、Developer+ を必要とします。
audit_id を運びます — それを保持してください;取り消しに渡すもの
です。一度適用されると、ベースラインは次のツール呼び出しでライブになります。再デプロイ
なし、エージェントのコード変更なし。今、両方のプレーンを一度に監視します:
- Firewall → Events — すべてのツール呼び出しの判定(
audit、deny された破壊的 シェル呼び出し)。Events ログを参照。 - Guardrails → Matches — すべてのコンテンツポリシーのヒット(PII Shield フラグ)。
balanced は実在する編集可能なファイアウォールポリシーと実在するガードレール
(それぞれレベルにちなんで命名)を書き込むため、後でどちらかを開いてチューニングでき
ます — ベースラインは開始点であり、ロックされたプリセットではありません。
4. 取り消しは 1 つの呼び出し
すべての自律性の変更は、その監査スナップショットから可逆であり、正確な直前の状態 — ポリシー、ルール、ガードレール、設定 — を復元します。汎用リセットではありません。5. 推奨されるパス
広く始め、監視し、それから可視性の位置から締めます:tight をシミュレート
GET /api/workspace/firewall/simulate?level=tight し、その deny を Events フィードが
実際に示したものと比較します。フェッチ形または破壊的シェルの呼び出しが通常のフローの
一部なら、まずエージェントを修正します。ルールでチューニング
ベースラインはあなたの床です。それがカバーしない例外を切り出すか、コントロールを
ファイアウォールルールと名前付き
ガードレールで追加します。より細かいスコープのために、
特定のポリシーまたはガードレールを個別のキーにアタッチします。
6. 組み合わせベースラインのロール
自律性コントロールは両プレーンにまたがりますが、すべてのアクションはロールゲート されています。| アクション | 最小ロール |
|---|---|
| レベルをシミュレート / ガードレール Matches を表示 / Discovered Tools を表示 | Member |
| ファイアウォール Events & Runs を表示 | Developer+ |
| 自律性レベルを適用 | Developer+ |
| 自律性の変更を取り消し | Developer+ |
/api/workspace/firewall/* と
/api/guardrail/*)。/v1/* リレー呼び出しのみが sk-orca-… キーを使います;ゲート
ウェイキーのルートは別のスコープです。
スコープ:キー、ポリシー、ワークスペースを
参照。
7. ベースラインの後:各プレーンをどこでチューニングするか
ベースラインは最初の 30 分であなたを保護します。そこから、各プレーンには精度作業の ための独自のリファレンスがあります:ファイアウォールの概要
判定、サーフェス、引数述語、承認 — アクションプレーン。
ガードレール
キーワード、正規表現、PII、llm_judge、グラウンディングルール — コンテンツプレーン。
シャドウモード
締めたファイアウォールポリシーを、強制する前に audit のみでロールアウト。
Secure Agents ベースライン
自律性コントロールとその取り消しセマンティクスのコンセプトページ。
