1. ひとつのプリセットでの AI ブランドセーフティ
ガードレールテンプレートピッカーの Brand カテゴリは、keyword 拒否リストの セットです。各プリセットは、ワンクリックで適用してから編集する単一のkeyword
ルールです — シード用語をあなた自身のリストに入れ替えます。モデル呼び出し、
ネットワークホップ、SDK 変更はありません:ポリシーはゲートウェイに存在し、あなたの
アプリは以前と全く同様に /v1/chat/completions を呼び出し続けます。
冒涜的表現
リクエスト上の悪態や禁止用語をブロックする拒否リスト — または代わりに
それらをリダクトする mask バリアント。
競合他社への言及
リストアップした名前への言及をブロック(またはフラグ)します — コパイロットが
競合をほめるのを防ぎます。
児童安全
あなた自身の基準から作り込む児童安全用語の保守的な拒否リスト、リクエスト上で
ブロックされます。
2. Brand プリセット、出荷されたとおり
コンソールの Guardrails ビューで New guardrail スプリットボタンを開き、 Brand テンプレートカテゴリを選びます。そこには 5 つのシードが存在します:Profanity / Brand Safety (block)
Profanity / Brand Safety (block)
単一の
keyword ルール、ステージ input、アクション block。
プレースホルダ用語とともに出荷されます — リストをあなたの実際の禁止単語、
競合他社名、立ち入り禁止フレーズに編集します。マッチはプロンプトがゲートウェイを
離れる前に HTTP 400 guardrail_blocked を返します。Profanity Filter (mask)
Profanity Filter (mask)
同じ拒否リストですが、アクション mask、ステージ both — 拒否リストの
単語は呼び出しを拒否する代わりに
[REDACTED] で置換されます。リクエストを
拒否するのではなくクリーンにして通したいときの、より柔らかい代替案です。Profanity Multilingual
Profanity Multilingual
市場ごとのプレースホルダ(zh、es、fr、de、ja、ar)でシードされた
keyword
ブロックルール。各々をあなたのポリシーが禁止する地域固有の用語に置き換えます —
シード用語は意図的にジェネリックです。Competitor Mentions
Competitor Mentions
keyword ルール、ステージ input、アクション block、単一の
プレースホルダでシード。競合他社名を追加します。トラフィックを拒否せずに言及を
監視するには、アクションを flag に切り替えます。Child Safety Keywords
Child Safety Keywords
保守的な
keyword 拒否リスト、ステージ input、アクション block。
シードは意図的なプレースホルダです — それに頼る前に、あなた自身の安全ポリシー
または基準からの正確な用語で作り込んでください。プリセットはシードであり、ロックではありません。 すべての Brand プリセットは、
ルールが箱から出してすぐに有効になるようプレースホルダ用語とともに出荷されます —
キーをアタッチする前に、あなたのブランドのために拒否リストを編集することが
期待されています。プリセットは意図的に、実際の禁止単語や児童安全リストを出荷
しません。
3. コンソールで Brand プリセットを適用する
ここでのすべてのステップは、あなた自身のセッション下のコンソールアクションです。 ガードレールの作成と編集にはワークスペースで Developer+ が必要です。最後の/v1/* 呼び出しのみが sk-orca-... リレーキーを使います。
テンプレートを開く
コンソールで Guardrails を開き、New guardrail スプリットボタンを
クリックし、Brand テンプレートカテゴリから Competitor Mentions
(または任意の Brand プリセット)を選びます。
テストする
Test タブを開き、
input ステージでサンプルを貼り付け、ポリシーを
ローカルで実行します — アップストリーム呼び出しなし、クォータなし
(§5を参照)。キーをアタッチする
API キーを編集し、Guardrail ドロップダウンから
brand-safety を選ぶ
(キー上に guardrail_id を設定)か、ワークスペースデフォルトとして
マークします。キーにアタッチすると
アカウントデフォルトを参照。4. ひとつの具体例
brand-safety という名前の競合他社言及ガードレールがキーにアタッチされています。
シードプレースホルダは実際の名前 Acme に置き換えられています。以前と全く同様に
ゲートウェイを呼び出します — 新しいヘッダーなし:
keyword ルールがリクエスト上の Acme にマッチし、ゲートウェイは — 発火した
ガードレールとルールを示しつつ — アップストリームモデルに何かが到達する前に
呼び出しを HTTP 400 guardrail_blocked で拒否します。
プロンプトを拒否するよりクリーンにしたいときは、冒涜的表現には block より
mask を選びます — 拒否リストの単語が [REDACTED] にレンダリングされ、
リクエストは通過します。ブロックを始める前に露出を測定したいときは、競合他社への
言及には flag を選びます。アクションページが、
完全な block / mask / flag のトレードオフを扱います。
5. アタッチする前にテストする
いずれかのキーがそれを指す前に、拒否リストが期待どおりに動作することを証明します。 エディタ内の Test タブを開き、サンプルを貼り付け、input ステージを選んで
実行します:
6. 何が発火したかを確認する
発火したすべてのルールはマッチを記録します — ルールの種類、アクション、 ステージ、detail 文字列 — ワークスペースの Matches フィード (GET /api/guardrail/match、Member)に現れます。マッチした部分文字列そのもの
(禁止単語、競合他社名)は、Log raw content がオンのときのみ記録され、
それはデフォルトでオフです。
児童安全拒否リストでは、Log raw content をオフのままにすることがたいてい
要点です:用語をあなた自身のテレメトリにコピーし戻すことなく、用語がブロックされた
こととその頻度を確認できます。トリアージのために部分文字列が必要なときだけ
ガードレールごとにオンにします。設定は非遡及的です。
マッチフィードと
ロギングとプライバシーを参照。
7. 次にどこへ
機密ワードフィルター
すべての Brand プリセットの背後にあるキーワード拒否リストの仕組みを詳しく。
シークレットをブロック
Secrets Blocker プリセットで API キーとクレデンシャルを捕捉します。
誤検知のチューニング
Matches フィードから誤検知をマークし、拒否リストを引き締めます。
テンプレート
すべてのカテゴリにわたる完全なプリセットライブラリ。
