/v1/* 呼び出しがスクリーニングされます — モデルが
プロンプトを目にする前と、モデルが応答した後に — 再デプロイなし、SDK 変更なしで。
このページは Guardrails セクションのハブです:ガードレールとは何か、ルールの
種類、ステージとアクション、そしてポリシーがキーにどうアタッチされるか。
各スポークがさらに深く掘り下げます。完全なエンジンリファレンスについては、
ガードレールを参照してください。
1. ゲートウェイ上で AI ガードレールが行うこと
ほとんどのチームはガードレールを、機密データをプロンプトから締め出すため (PII、シークレット)、安全でないコンテンツをゲートするため(jailbreak、 プロンプトインジェクションの意図)、あるいはコンプライアンス制御を満たすために 使います。ガードレールはゲートウェイの答えです:ワークスペーススコープの 名前付きポリシー — ゲートウェイがリクエスト入力とモデル出力に対して実行する、 順序付けられたルールのリストです。 バインディングはアプリケーションではなくゲートウェイの API キー上に存在する ため、ガードレールを編集するとアタッチされたすべてのキーが次の呼び出しで 反映されます。あなたのコードは以前と全く同様に/v1/chat/completions を
呼び出し続けます。
ガードレールはコンテンツポリシーです(テキスト入力、テキスト出力)。
対をなすエージェントファイアウォールはツール
ポリシーです — エージェントがどのツール呼び出しを行えるかを統制します。
両者は組み合わさります。ガードレール vs. ファイアウォールを参照。
2. ひとつの具体例
コンソール(/console/guardrails)で pii-shield という名前のガードレールを
作成し、単一の PII ルール — ステージ input、アクション mask、エンティティ
email、ssn — を追加し、キーにアタッチします。それ以降:
Reply to [EMAIL] please に書き換えます
— アップストリームモデルがアドレスを目にすることはありません。その ssn
エンティティを block に切り替えると、SSN を含む次のリクエストは HTTP 400 で
拒否されます。アプリケーションの変更は不要です。
3. ルール:type、stage、action
すべてのルールは 3 つの質問に答えます。エンジンは適用可能なすべてのルールを 実行し、それらをひとつの判定にまとめます。Type — 何を探すか
Type — 何を探すか
7 つのルールの種類。組み込みは決定的(純粋な文字列/正規表現、ネットワーク
なし)で、高度なものはモデルまたはベンダーを呼び出し、並行して実行されます。
keyword— リテラルの拒否リスト、大文字小文字を区別しない部分文字列マッチ。regex— RE2 パターン(線形時間、後方参照なし)。pii— 組み込みエンティティ検出器に加え独自のもの。§5を参照。max_chars— あるステージで文字数を制限します。external— 接続済みベンダー(Aporia、Averta、または独自 webhook)に委譲します。llm_judge— ワークスペース内のモデルに対するセマンティックチェック。grounding— リクエストで取得されたソース(RAG)に対して回答の忠実性をスコアリングします。
Stage — どこを探すか
Stage — どこを探すか
Action — どう対処するか
Action — どう対処するか
ルールビルダーには 5 つのアクションが現れます:
- block — HTTP 400 で呼び出しを拒否します。
- mask — マッチをリダクトし、サニタイズされたテキストを通します。
- flag — トラフィックについて何も変えません。マッチを記録するだけです。
- annotate — テキストはそのままに、アップストリームへセキュリティノートを 注入します(例:モデルが応答する前の CVE アドバイザリ)。
- spotlight — マッチした信頼されていないテキストをデリミタで囲み、それを 指示ではなくデータとして扱うようモデルに伝えます。
4. ガードレールのアタッチと解決の仕組み
ガードレールはguardrail_id を介してキーにバインドされるか、ワークスペースが
ひとつのガードレールをデフォルトとしてマークできます。任意のリクエストについて、
ゲートウェイは次の順序で解決します:
- 明示的アタッチメント — キーの
guardrail_idが、存在し有効である ガードレールを指している場合、それが適用されます。明示的アタッチメントは 決してフォールバックしません:無効化することがオフスイッチです。 - ワークスペースデフォルト — キーにアタッチメントがない場合、有効な デフォルトガードレールが適用されます。
- どちらもなし — 強制なし。リクエストはこの機能を一度も有効化していない ワークスペースとバイト単位で同一です。
これはファイアウォールと異なります。無効化されたアタッチ済みファイアウォール
ポリシーはワークスペースデフォルトにフォールバックしますが、無効化された
アタッチ済みガードレールは none に解決されます。ガードレールではオフスイッチが
文字どおりです。
5. PII 検出器
pii ルールはクローズドな組み込み検出器セットを同梱します:
email、phone、credit_card、ssn、ip、iban、mac_address、
jwt、aws_access_key、api_key_openai、bitcoin_address — に加え、
地域固有の jp_mynumber、kr_rrn、cn_resident_id。
mask アクションでは各マッチが型付きタグになります — email は [EMAIL] に、
SSN は [SSN] にレンダリングされます。ルールごとに最大 25 個のカスタム
エンティティ(オプションの Luhn チェックサムつき正規表現)を重ねることができ、
エンティティごとのオーバーライドでひとつのルール内で異なるエンティティを異なる
アクションにルーティングできます。
6. プリセットピッカー
New guardrail はテンプレートに開きます。プリセットはサーバーサイドで 作成されているため、コンソール、サンドボックス、そしてこのドキュメントは同じ 挙動を記述します。ピッカーはそれらをカテゴリにグループ化します:| カテゴリ | プリセット例 | スポーク |
|---|---|---|
| pii / secrets | PII Shield、シークレットクレデンシャルブロッカー | シークレットをブロック |
| safety | プロンプトインジェクション、jailbreak、自傷 | プロンプトインジェクション |
| compliance | GDPR、PCI、HIPAA、コンプライアンスロガー | コンプライアンスロガー |
| brand / cost | 冒涜的表現、競合他社への言及、サイズ上限 | ブランドセーフティ · コスト |
| agent | URL / シェルツール / 出力内 SQL フィルター | エージェント |
| code_security | シークレットファイルブロック、コピーレフトライセンスレビュー | コードセキュリティ |
7. ガードレールがブロックするとき
ブロックされたリクエストは、エラーコードguardrail_blocked と、発火した
ガードレールおよびルールを示すメッセージとともに HTTP 400 を返します。
- クォータは消費されません。 入力ステージのブロックはメータリングの前に 発火し、出力ステージのブロックは事前消費されたクォータを返金します。
- リクエストは skip-retry とマークされます — 同じプロンプトを再実行しても また block されるだけなので、ゲートウェイは別のチャネルでリトライを無駄にしません。
8. ライブになった後
マッチフィード
発火したすべてのルールは type、action、stage、detail を記録します。
グループ化、フィルター、エクスポート、単一マッチへのドリルダウンができます。
ロギングとプライバシー
マッチした部分文字列は Log raw content がオンのときのみ記録されます
— デフォルトはオフ、プライバシー保守的な姿勢です。
バージョニング
すべての変更は履歴行を書き込みます。任意の 2 バージョンを diff し、新しい
バージョンとして revert します — 履歴は決して変更されません。
テストと eval
サンドボックス Test タブはアップストリーム呼び出しなしで現在のポリシーを
評価し、eval ハーネスはバンドルまたはカスタムコーパスに対してスコアリングします。
9. 次にどこへ
適切なルールの種類を選ぶ
適切なルールの種類を選ぶ
機密ワード拒否リスト ·
正規表現検出器 ·
入力ステージ ·
出力ステージ ·
ストリームセーフルール。
モデルを理解する
モデルを理解する
脅威にマッピングする
脅威にマッピングする
完全なエンジンリファレンス
完全なエンジンリファレンス
ガードレール — すべてのフィールド、すべての
ルート、LLM judge とグラウンディングルール、そして外部ベンダーを詳しく。
