ファイアウォール：スキル

現代のエージェントはその場でケイパビリティをインストールします：レジストリからのスキル、コミュニティ MCP サーバー、URL からのプラグイン。それぞれがマニフェスト、ツールのセット、そして要求された権限のセットを同梱します — そして、それぞれがエージェントがロードした瞬間にサプライチェーンリスクとなります。shell.exec と外部ネットワークスコープをひそかに要求するスキルは、まさに、インシデントで発見されるのではなく、実行される前にレビューされるべき類のものです。ファイアウォールのスキル統制が、そのレビューです。すべてのインストール可能なケイパビリティはワークスペーススコープのレコードとして登録され、決定的なリスクエンジンによってスキャンされ、リスクバンドと強制モードを割り当てられ、そして — ランタイムで — そのモードがファイアウォールのルール判定の上に乗ります。

1. ここでの「スキル」とは

スキルレコードはひとつのインストール可能なエージェントケイパビリティです。単一のモデルが 3 つの種類を一般化するため、ひとつのスキャン、スコアリング、承認のプレーンが、エージェントが自己インストールするすべてを統制します：

種類	それが何か
`skill`	パッケージ化されたケイパビリティ — マニフェストに加えて、ツールのセットとシステムプロンプトのフラグメント。
`mcp_server`	統制されたアーティファクトとして登録された持ち込み MCP サーバー。
`plugin`	プラグインスタイルの拡張。

各レコードはまたソース — builtin、registry、private、byo_mcp、 auto_detected — を持ち、それが信頼性評価に反映されます。

2. スキャナ

登録時（およびオンデマンド）に、スキャナはマニフェストと宣言されたスコープに対して、決定的で依存関係のない一連のパスを実行します。各パスは info、warn、error の重大度を持つ発見事項を発します：

パス	フラグするもの	重大度
prompt_injection	指示を上書きしようとするマニフェストテキスト（`ignore previous instructions`、`you are now`、先頭の `system:` …）。	warn
tool_creep	マニフェストが使用するが `allowed_tools` で宣言していないツール名。	error
network_egress	スキルのネットワークスコープで承認されていない、マニフェスト内の HTTP(S) ホスト。	warn
fs_write_unsafe	`/tmp` 外のパスに対する書き込みモードのファイルシステムスコープ（トラバーサルセーフ）。	error
data_scope	機密データスコープ（`pii`、`financial`、`customer`）。	info
unsigned	署名のない `registry` スキル。	warn

発見事項はスキャン判定にロールアップされます：いずれかの error → blocked；そうでなければいずれかの warn → flagged；そうでなければ clean。

3. リスクスコアとバンド

同じ発見事項が決定的なリスクスコア（0–100、カテゴリごとの上限つきで加算的）に反映されます。最も重い寄与要因は危険なケイパビリティです：

ケイパビリティ	重み
シェル実行	+30
任意コードの eval	+30
`/tmp` 外へのファイルシステム書き込み	+25
シークレット読み取り	+25
外部ネットワーク egress	+20

tool-creep、prompt-injection、egress、data-scope の発見事項がその上に加算され（それぞれ上限つき）、署名のないレジストリスキルは +15 を加え、緩和策は減算します — 署名されたスキルは −10、error 発見事項のないマニフェストは −5。スコアは バンドにマップされます：

バンド	スコア
`low`	0–25
`medium`	26–50
`high`	51–75
`critical`	76–100

これらの重みはドリフトガードテストによって固定されています — 意図的な仕様変更なしに動くことはないため、バンドはすべてのワークスペースで同じことを意味します。

4. 強制モード

バンドと判定が一緒になって強制モード — このスキルが所有するツールが呼び出されたときにファイアウォールが実際に何をするか — を導出します：

モード	ランタイムでの効果
`allow`	スキルは独自のものを何も課しません；ルール判定が決めます。
`quarantine`	deny 未満のものを `pending_approval` にエスカレートします — スキルのツールは人間が承認した後にのみ実行されます。
`block`	スキルのツールに `deny` を強制します。

導出は 2 つのシグナルのより厳しい方を取ります：バンド（low/medium → allow、 high → quarantine、critical → block）とスキャン判定（blocked → block、 flagged → quarantine）。判定を blocked にする単一の error 発見事項は、数値的なバンドが low であっても quarantine-or-block します — 慎重な方向です。オペレータはモードを明示的に設定できます；再スキャンではモードはより厳しくなる方向にしかラチェットせず、設定した block や quarantine を緩めることは決してありません。

5. 信頼シグナル

静的スキャンを超えた 2 つのシグナルが、スキルがどう扱われるかに影響します：

署名された発行者。 信頼された発行者からの署名を持つスキルは、より信頼できるものとして扱われます（署名の緩和策がそのリスクスコアを下げます）；署名のないレジストリスキルはペナルティを受けます。どの発行者をワークスペースが信頼するかはあなたが管理します。
リソースレピュテーション。 スキルの評価は、時間をかけたそのライブな挙動によって調整され得ます — deny と異常はそのリスクを上げ、クリーンな連続記録は下げます — そのため、本番で不正に振る舞うアーティファクトは、そのマニフェストがクリーンにスキャンされていても、quarantine に向けてドリフトします。

6. 自動検出されたケイパビリティ

スキャナは、手動で何かを登録したときにのみ実行されるわけではありません。エージェントがケイパビリティを自己インストールし、そのツールが初めてゲートウェイを横切ると、ファイアウォールはそれを自動検出し（ホットパスから外れて、非同期に）、観測したものからマニフェストを合成し、同じスキャン、スコア、モード導出を実行します — source = auto_detected で。

自動検出されたケイパビリティは、レビューされるまで隔離されます。 そうでなければ allow に解決されるであろう自動検出されたものは、人間がレビューするまで quarantine に下限設定されます（critical は block のままです）。誰も承認していないケイパビリティは、無害にスキャンされたというだけでフリーパスを得ることはありません — あなたがそれを見た後にのみ実行されます。

7. ランタイム強制

ツール呼び出しがファイアウォールエンジンに到達すると、それは所有スキルに帰属され、その後スキルのモードがルール判定の上に適用されます：

帰属。 呼び出しは、宣言された allowed_tools によって、次に mcp_server 名前空間プレフィックスによって、次にワークスペース全体の最も制限的な強制フォールバックによって、スキルにマッチされます。
ルール判定。 ポリシーのルールが通常どおり実行されます — そしてルールの skill_name_globにより、ルールを特定のスキルにスコープできます。
モードオーバーライド。 block スキルは deny を強制します；quarantine スキルは deny 未満のものを pending_approval にエスカレートします；allow は判定をそのままにします。

スキル帰属はフェイルクローズします。 ツールが帰属できない場合（キャッシュのない DB エラー、またはキュレーションされたソースの下の未宣言ツール）、呼び出しは許可されるのではなくレビューのために保留されます。そしてスキルモードはシャドウモードから独立しています — 隔離またはブロックされたスキルは、ポリシーがシャドウロールアウト中であっても、依然として強制されます。

8. ライフサイクル

登録 — POST /skills は同期的に検証しスキャンし、スキルとその発見事項および判定を返します。モードが導出されます（または明示的なモードが尊重されます）。
更新 — 新しいマニフェストを再スキャンします；悪化したスキャンではモードがより厳しくラチェットしますが、保存された block/quarantine を緩めることは決してありません。
再スキャン — POST /skills/:id/rescan はスキャンを再実行します；判定が flagged または blocked に新たに低下した場合、ファイアウォールイベントを発するため、ドリフトがフィードに表示されます。
削除 — ソフト削除し、再登録のために名前スロットを解放します。

API リファレンス

ワークスペーススコープ；リスト読み取りは任意のメンバーに開放（そしてシークレットを持つフィールドをリダクト）、それ以外はすべて Developer+ が必要です。

メソッドとパス	ロール	目的
`GET /api/workspace/firewall/skills`	Member	スキル一覧（リダクト済み；`?kind=` と `?source=` でフィルタ）。
`GET /api/workspace/firewall/skills/:id`	Developer+	完全なスキルレコード。
`POST /api/workspace/firewall/skills`	Developer+	登録 + スキャン（重複名で 409）。
`PUT /api/workspace/firewall/skills/:id`	Developer+	更新 + 再スキャン。
`POST /api/workspace/firewall/skills/:id/rescan`	Developer+	再スキャン；低下時にイベントを発する。
`DELETE /api/workspace/firewall/skills/:id`	Developer+	ソフト削除。

登録/更新/再スキャンは次を返します：

{
  "skill": { "id": 7, "name": "creepy", "risk_band": "high", "mode": "quarantine", "...": "..." },
  "findings": [
    { "kind": "tool_creep", "target": "shell.exec", "severity": "error" }
  ],
  "scan_verdict": "blocked"
}

名前はワークスペースごとに種類をまたいで一意です — skill という名前の github と mcp_server という名前の github は、同じワークスペース内で衝突します。アーティファクトごとに別個の名前を選んでください。

FAQ

これはルール DSL とどう違いますか？

ルールは、名前と引数によってツール呼び出しをゲートします。スキルは、エージェントがロードするケイパビリティ — パッケージ、そのマニフェスト、そして要求された権限 — を、そのツールのいずれかが実行される前にゲートします。スキルのモードはその後ルールが決めるものの上に乗るため、両者は構成されます：ルールは一般に http.fetch を allow できる一方、それを所有する隔離されたスキルは依然として保留されます。

悪意あるスキルがクリーンなマニフェストを宣言するのを何が止めますか？

いくつかのものです。Tool-creep 検出は、使用されているが宣言されていないツールをフラグします；自動検出は、主張されたマニフェストだけでなく、実際にゲートウェイを横切ったものから再スキャンします；モードは再スキャンでより厳しく（緩くではなく）ラチェットします；リソースレピュテーションは、時間をかけて不正に振る舞うアーティファクトを quarantine に向けてドリフトさせます；そして帰属は、ツールが宣言されたスキルに紐付けられないときにフェイルクローズします。

すべてのスキルを手動で登録しなければなりませんか？

いいえ。事前承認したいものを登録します；残りは初回使用時に自動検出され、レビューするまで隔離されます。観察モードをオンにすれば、エージェントがインストールするすべてをブロックすることなく表面化でき、その後実データから厳格化できます。

セキュアエージェントベースライン

すべてのエージェントケイパビリティにゼロトラスト姿勢をひとつのスイッチで適用します。

エージェント向けガードレール

自律的にツールを使うエージェントのために作られたガードレール。

​1. ここでの「スキル」とは

​2. スキャナ

​3. リスクスコアとバンド

​4. 強制モード

​5. 信頼シグナル

​6. 自動検出されたケイパビリティ

​7. ランタイム強制

​8. ライフサイクル

​API リファレンス

​FAQ

​関連項目

セキュアエージェント ベースライン

エージェント向けガードレール

1. ここでの「スキル」とは

2. スキャナ

3. リスクスコアとバンド

4. 強制モード

5. 信頼シグナル

6. 自動検出されたケイパビリティ

7. ランタイム強制

8. ライフサイクル

API リファレンス

FAQ

関連項目

セキュアエージェントベースライン