メインコンテンツへスキップ
顧客の前で AI を運用していて、あなたのブランドが懸かっています。サポートボットは 決して悪態をついてはならず、マーケティングコパイロットは決して競合他社の名前を 出してはならず、あなたのトラフィックの何も児童安全用語に触れてはなりません。 ブランドとトーンの安全性はその 3 つすべてを強制する最速の方法です:Brand ガードレールプリセットカテゴリは、キーにアタッチするキーワード拒否リストを同梱し、 ゲートウェイはすべての呼び出しを、OpenAI、Anthropic、Google に到達する前にそれらに 対してスクリーニングします。 これはブランドセーフティのユースケースに焦点を当てた着地ページです。完全な エンジン — すべてのルールの種類、フィールド、ルート — については、 ガードレールリファレンスを参照してください。

1. ひとつのプリセットでの AI ブランドセーフティ

ガードレールテンプレートピッカーの Brand カテゴリは、keyword 拒否リストの セットです。各プリセットは、ワンクリックで適用してから編集する単一の keyword ルールです — シード用語をあなた自身のリストに入れ替えます。モデル呼び出し、 ネットワークホップ、SDK 変更はありません:ポリシーはゲートウェイに存在し、あなたの アプリは以前と全く同様に /v1/chat/completions を呼び出し続けます。

冒涜的表現

リクエスト上の悪態や禁止用語をブロックする拒否リスト — または代わりに それらをリダクトする mask バリアント。

競合他社への言及

リストアップした名前への言及をブロック(またはフラグ)します — コパイロットが 競合をほめるのを防ぎます。

児童安全

あなた自身の基準から作り込む児童安全用語の保守的な拒否リスト、リクエスト上で ブロックされます。
3 つすべてが決定的なキーワードマッチです — アップストリーム呼び出しの前に リクエストで走る、大文字小文字を区別しない部分文字列スキャン。余分なコストは かからず、モデルの背後で直列化することは決してありません。

2. Brand プリセット、出荷されたとおり

コンソールの Guardrails ビューで New guardrail スプリットボタンを開き、 Brand テンプレートカテゴリを選びます。そこには 5 つのシードが存在します:
単一の keyword ルール、ステージ input、アクション block。 プレースホルダ用語とともに出荷されます — リストをあなたの実際の禁止単語、 競合他社名、立ち入り禁止フレーズに編集します。マッチはプロンプトがゲートウェイを 離れる前に HTTP 400 guardrail_blocked を返します。
同じ拒否リストですが、アクション mask、ステージ both — 拒否リストの 単語は呼び出しを拒否する代わりに [REDACTED] で置換されます。リクエストを 拒否するのではなくクリーンにして通したいときの、より柔らかい代替案です。
市場ごとのプレースホルダ(zh、es、fr、de、ja、ar)でシードされた keyword ブロックルール。各々をあなたのポリシーが禁止する地域固有の用語に置き換えます — シード用語は意図的にジェネリックです。
keyword ルール、ステージ input、アクション block、単一の プレースホルダでシード。競合他社名を追加します。トラフィックを拒否せずに言及を 監視するには、アクションを flag に切り替えます。
保守的な keyword 拒否リスト、ステージ input、アクション block。 シードは意図的なプレースホルダです — それに頼る前に、あなた自身の安全ポリシー または基準からの正確な用語で作り込んでください。
プリセットはシードであり、ロックではありません。 すべての Brand プリセットは、 ルールが箱から出してすぐに有効になるようプレースホルダ用語とともに出荷されます — キーをアタッチする前に、あなたのブランドのために拒否リストを編集することが 期待されています。プリセットは意図的に、実際の禁止単語や児童安全リストを出荷 しません。

3. コンソールで Brand プリセットを適用する

ここでのすべてのステップは、あなた自身のセッション下のコンソールアクションです。 ガードレールの作成と編集にはワークスペースで Developer+ が必要です。最後の /v1/* 呼び出しのみが sk-orca-... リレーキーを使います。
1

テンプレートを開く

コンソールで Guardrails を開き、New guardrail スプリットボタンを クリックし、Brand テンプレートカテゴリから Competitor Mentions (または任意の Brand プリセット)を選びます。
2

拒否リストを編集する

シードプレースホルダをあなたの実際の用語に置き換えます — 例:競合他社名。 ガードレールに名前(≤ 64 文字)を付け、brand-safety のように、保存します。
3

テストする

Test タブを開き、input ステージでサンプルを貼り付け、ポリシーを ローカルで実行します — アップストリーム呼び出しなし、クォータなし (§5を参照)。
4

キーをアタッチする

API キーを編集し、Guardrail ドロップダウンから brand-safety を選ぶ (キー上に guardrail_id を設定)か、ワークスペースデフォルトとして マークします。キーにアタッチするアカウントデフォルトを参照。

4. ひとつの具体例

brand-safety という名前の競合他社言及ガードレールがキーにアタッチされています。 シードプレースホルダは実際の名前 Acme に置き換えられています。以前と全く同様に ゲートウェイを呼び出します — 新しいヘッダーなし:
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Write a tweet praising Acme over us"}
    ]
  }'
keyword ルールがリクエスト上の Acme にマッチし、ゲートウェイは — 発火した ガードレールとルールを示しつつ — アップストリームモデルに何かが到達する前に 呼び出しを HTTP 400 guardrail_blocked で拒否します。
block 判定はクォータを消費しません。 入力ステージのブロックは使用量が メータリングされる前に発火し、リクエストは skip-retry とマークされます — 同じプロンプトを別のチャネルに対して再実行してもまたブロックされるだけです。 guardrail_blocked エラーを参照。
プロンプトを拒否するよりクリーンにしたいときは、冒涜的表現には block より mask を選びます — 拒否リストの単語が [REDACTED] にレンダリングされ、 リクエストは通過します。ブロックを始める前に露出を測定したいときは、競合他社への 言及には flag を選びます。アクションページが、 完全な block / mask / flag のトレードオフを扱います。

5. アタッチする前にテストする

いずれかのキーがそれを指す前に、拒否リストが期待どおりに動作することを証明します。 エディタ内の Test タブを開き、サンプルを貼り付け、input ステージを選んで 実行します:
Write a tweet praising Acme over us
サンドボックスは現在のポリシーをローカルで評価し、判定を返します — アップストリーム には何も送信されず、何もメータリングされません。フレージングのコーパスに対する スイープについては、Eval ハーネスが隣の タブにあります。
キーワードマッチは大文字小文字を区別しない部分文字列スキャンであるため、 classclassic の内側にもマッチします。拒否リストエントリは具体的に保ち、 実トラフィックを見たら Matches フィードから 誤検知をチューニングします。

6. 何が発火したかを確認する

発火したすべてのルールはマッチを記録します — ルールの種類、アクション、 ステージ、detail 文字列 — ワークスペースの Matches フィード (GET /api/guardrail/match、Member)に現れます。マッチした部分文字列そのもの (禁止単語、競合他社名)は、Log raw content がオンのときのみ記録され、 それはデフォルトでオフです。
児童安全拒否リストでは、Log raw content をオフのままにすることがたいてい 要点です:用語をあなた自身のテレメトリにコピーし戻すことなく、用語がブロックされた こととその頻度を確認できます。トリアージのために部分文字列が必要なときだけ ガードレールごとにオンにします。設定は非遡及的です。 マッチフィードロギングとプライバシーを参照。
Brand ガードレールへのすべての編集は、同じトランザクション内でバージョン付きの 履歴行を書き込みます — 任意の 2 バージョンを diff し、History ビューから revert します。バージョニングを参照。

7. 次にどこへ

機密ワードフィルター

すべての Brand プリセットの背後にあるキーワード拒否リストの仕組みを詳しく。

シークレットをブロック

Secrets Blocker プリセットで API キーとクレデンシャルを捕捉します。

誤検知のチューニング

Matches フィードから誤検知をマークし、拒否リストを引き締めます。

テンプレート

すべてのカテゴリにわたる完全なプリセットライブラリ。
Brand プリセットはコンテンツをゲートします。悪意あるプロンプトでブランドから 逸れさせられたモデルを止めるには、それらを プロンプトインジェクションガードレールjailbreak の脅威とペアにします。完全なエンジン — ステージ、高度なルール、ルート — については、 ガードレールリファレンスを読んでください。