メインコンテンツへスキップ
短い答え:ガードレールはテキストを統制し、ファイアウォールはアクションを統制します。 それらは補完的です — ひとつのリクエストが両方を流れます — そして両方を一緒に設定する 最速の方法は 自律性レベル です。 このページの残りは、特定の脅威がどのレイヤーに属するかを知る必要がある場合のためです。
必要なロール。 すべてのワークスペースメンバーはポリシーとガードレールの Matches フィードを読み取れます;ファイアウォールの Events フィードには Developer ロールが 必要です。ガードレールまたはファイアウォールポリシーの作成または編集にも Developer 以上が必要です。

1. ひと言の区別

レイヤー統制するもの見るもの
ガードレールテキスト — モデルが読み書きするものプロンプトコンテンツ、レスポンスコンテンツ
エージェントファイアウォールアクション — エージェントが行うことツール呼び出し、MCP ディスパッチ、アウトバウンドネットワーク宛先
ガードレールはアップストリーム呼び出しの前(プロンプトに対して)と後(レスポンスに対して) に発火します。ファイアウォールはモデルが発行するまたはエージェントが発行するすべての ツール呼び出しに発火します — そのターンを処理したモデルまたはプロバイダに関わらず。

2. 並べて比較

ディメンションガードレールエージェントファイアウォール
統制するものプロンプトテキストとモデルレスポンステキストツール呼び出し、MCP ディスパッチ、egress 宛先、エージェントコスト
見るものユーザーメッセージ、システムプロンプト、モデルの返信ツール名、呼び出し引数、モデルが発行するツール呼び出し、アウトバウンドホスト/IP
アタッチ方法API キーの guardrail_idAPI キーの firewall_policy_id
ルールタイプkeywordregexpiimax_charsexternalllm_judgegroundingツール名グロブ + 引数句 + egress スコープ + スキル所有権
脅威の例プロンプト内の PII、レスポンス内の API シークレット、jailbreak、トピック外出力、過大なコンテキスト危険なツール呼び出し、SSRF、データ持ち出し、暴走エージェントコストループ、未承認の MCP サーバー
判定 / アクションblock(HTTP 400 guardrail_blocked)、maskflagallowauditdeny(HTTP 400 firewall_blocked)、sanitizepending_approvalcap_cost
発火タイミング入力ステージ:モデル呼び出しの前;出力ステージ:モデルが返信した後モデルが発行するまたはエージェントが発行するすべてのツール呼び出しで
Shadow / observe modeなし — ガードレールは発火するかしないかはい — shadow mode は強制判定を audit に格下げして安全なロールアウト

3. 脅威 → どのレイヤー

新しいセキュリティ要件を適切なコントロールにルーティングするには、このテーブルを使用します:
脅威使用するもの
ユーザーメッセージ内の PIIガードレール — 入力 pii ルール(mask / block
モデルのレスポンス内のシークレットガードレール — 出力シークレットルール
危険なツール呼び出し(shell.exec rm -rf /ファイアウォール — ツールグロブ + 引数句で deny
SSRF / アウトバウンド URL 経由のデータ持ち出しファイアウォール — egress 許可/拒否リスト
信頼されていないコンテンツからのプロンプトインジェクション両方 — 入力ガードレール + ファイアウォール許可リスト
ツール引数内のシークレットファイアウォール sanitize + ガードレール シークレットルール
Jailbreak / ポリシーバイパスガードレールllm_judge / keyword / regex
過大なプロンプトまたはトークンコストガードレールmax_chars ルール
暴走エージェント支出(コストループ)ファイアウォールcap_cost 判定
未承認の MCP サーバーファイアウォール — MCP サーフェス deny / pending_approval
ツール結果からの機密データガードレール — レスポンスの出力ルール
各ペアリングの詳細な「理由」は Threats の詳細ページにあります。

4. 両方を使用する — 自律性レベルで一緒に設定する

ガードレールとファイアウォールは競合ではなく、構成するように設計されています。 ひとつのリクエストが両方のプレーンを通過します:
  1. 入力ガードレールが実行されます — プロンプトテキストがスクリーニングされ、 オプションでマスクされます。
  2. モデル呼び出し — (おそらくサニタイズされた)プロンプトがアップストリーム モデルに到達します。
  3. ファイアウォール — モデルが発行するすべてのツール呼び出しが評価されます。
  4. 出力ガードレールが実行されます — モデルのレスポンステキストがスクリーニング されます。
両方を一度に設定する最速の方法は自律性レベルです — ワークスペース全体のファイアウォール ポリシーとガードレールポリシーをアトミックに書く単一の設定で、ワンクリック取り消しが 可能です:
自律性レベルファイアウォール姿勢ガードレール姿勢
tightデフォルト deny;破壊的シェル + SSRF egress をブロックPII Shield + Secrets Blocker をオン
balancedデフォルト audit;破壊的シェルを denyPII Shield audit-only(PII をフラグ)
permissive強制ルールなし;observe mode をオン強制なし
ファイアウォールコンソールから自律性レベルを適用します(POST /api/workspace/firewall/autonomy、 Developer+)、その後各プレーンを独立してチューニングします。

5. まとめ

ガードレールはテキストを所有し、ファイアウォールはアクションを所有します — 両方を 実行し、自律性レベルで接続し、エージェントの実際のトラフィックを見ることができたら 各プレーンを独立して強化します。

ガードレール

ルールタイプ、PII 検出、LLM judge、eval ハーネス、API リファレンス。

エージェントファイアウォール

判定、サーフェス、自律性レベル、HITL 承認、API リファレンス。