ブランドとトーンの安全性

顧客の前で AI を運用していて、あなたのブランドが懸かっています。サポートボットは決して悪態をついてはならず、マーケティングコパイロットは決して競合他社の名前を出してはならず、あなたのトラフィックの何も児童安全用語に触れてはなりません。 ブランドとトーンの安全性はその 3 つすべてを強制する最速の方法です：Brand ガードレールプリセットカテゴリは、キーにアタッチするキーワード拒否リストを同梱し、ゲートウェイはすべての呼び出しを、OpenAI、Anthropic、Google に到達する前にそれらに対してスクリーニングします。これはブランドセーフティのユースケースに焦点を当てた着地ページです。完全なエンジン — すべてのルールの種類、フィールド、ルート — については、ガードレールリファレンスを参照してください。

1. ひとつのプリセットでの AI ブランドセーフティ

ガードレールテンプレートピッカーの Brand カテゴリは、keyword 拒否リストのセットです。各プリセットは、ワンクリックで適用してから編集する単一の keyword ルールです — シード用語をあなた自身のリストに入れ替えます。モデル呼び出し、ネットワークホップ、SDK 変更はありません：ポリシーはゲートウェイに存在し、あなたのアプリは以前と全く同様に /v1/chat/completions を呼び出し続けます。

冒涜的表現

リクエスト上の悪態や禁止用語をブロックする拒否リスト — または代わりにそれらをリダクトする mask バリアント。

競合他社への言及

リストアップした名前への言及をブロック（またはフラグ）します — コパイロットが競合をほめるのを防ぎます。

児童安全

あなた自身の基準から作り込む児童安全用語の保守的な拒否リスト、リクエスト上で ブロックされます。

3 つすべてが決定的なキーワードマッチです — アップストリーム呼び出しの前にリクエストで走る、大文字小文字を区別しない部分文字列スキャン。余分なコストはかからず、モデルの背後で直列化することは決してありません。

2. Brand プリセット、出荷されたとおり

コンソールの Guardrails ビューで New guardrail スプリットボタンを開き、 Brand テンプレートカテゴリを選びます。そこには 5 つのシードが存在します：

Profanity / Brand Safety (block)

単一の keyword ルール、ステージ input、アクション block。プレースホルダ用語とともに出荷されます — リストをあなたの実際の禁止単語、競合他社名、立ち入り禁止フレーズに編集します。マッチはプロンプトがゲートウェイを離れる前に HTTP 400 guardrail_blocked を返します。

Profanity Filter (mask)

同じ拒否リストですが、アクション mask、ステージ both — 拒否リストの単語は呼び出しを拒否する代わりに [REDACTED] で置換されます。リクエストを拒否するのではなくクリーンにして通したいときの、より柔らかい代替案です。

Profanity Multilingual

市場ごとのプレースホルダ（zh、es、fr、de、ja、ar）でシードされた keyword ブロックルール。各々をあなたのポリシーが禁止する地域固有の用語に置き換えます — シード用語は意図的にジェネリックです。

Competitor Mentions

keyword ルール、ステージ input、アクション block、単一のプレースホルダでシード。競合他社名を追加します。トラフィックを拒否せずに言及を監視するには、アクションを flag に切り替えます。

Child Safety Keywords

保守的な keyword 拒否リスト、ステージ input、アクション block。シードは意図的なプレースホルダです — それに頼る前に、あなた自身の安全ポリシーまたは基準からの正確な用語で作り込んでください。

プリセットはシードであり、ロックではありません。 すべての Brand プリセットは、ルールが箱から出してすぐに有効になるようプレースホルダ用語とともに出荷されます — キーをアタッチする前に、あなたのブランドのために拒否リストを編集することが期待されています。プリセットは意図的に、実際の禁止単語や児童安全リストを出荷しません。

3. コンソールで Brand プリセットを適用する

ここでのすべてのステップは、あなた自身のセッション下のコンソールアクションです。ガードレールの作成と編集にはワークスペースで Developer+ が必要です。最後の /v1/* 呼び出しのみが sk-orca-... リレーキーを使います。

テンプレートを開く

コンソールで Guardrails を開き、New guardrail スプリットボタンをクリックし、Brand テンプレートカテゴリから Competitor Mentions （または任意の Brand プリセット）を選びます。

拒否リストを編集する

シードプレースホルダをあなたの実際の用語に置き換えます — 例：競合他社名。ガードレールに名前（≤ 64 文字）を付け、brand-safety のように、保存します。

テストする

Test タブを開き、input ステージでサンプルを貼り付け、ポリシーをローカルで実行します — アップストリーム呼び出しなし、クォータなし（§5を参照）。

キーをアタッチする

API キーを編集し、Guardrail ドロップダウンから brand-safety を選ぶ（キー上に guardrail_id を設定）か、ワークスペースデフォルトとしてマークします。キーにアタッチするとアカウントデフォルトを参照。

4. ひとつの具体例

brand-safety という名前の競合他社言及ガードレールがキーにアタッチされています。シードプレースホルダは実際の名前 Acme に置き換えられています。以前と全く同様にゲートウェイを呼び出します — 新しいヘッダーなし：

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Write a tweet praising Acme over us"}
    ]
  }'

keyword ルールがリクエスト上の Acme にマッチし、ゲートウェイは — 発火したガードレールとルールを示しつつ — アップストリームモデルに何かが到達する前に呼び出しを HTTP 400 guardrail_blocked で拒否します。

block 判定はクォータを消費しません。 入力ステージのブロックは使用量がメータリングされる前に発火し、リクエストは skip-retry とマークされます — 同じプロンプトを別のチャネルに対して再実行してもまたブロックされるだけです。 guardrail_blocked エラーを参照。

プロンプトを拒否するよりクリーンにしたいときは、冒涜的表現には block より mask を選びます — 拒否リストの単語が [REDACTED] にレンダリングされ、リクエストは通過します。ブロックを始める前に露出を測定したいときは、競合他社への言及には flag を選びます。アクションページが、完全な block / mask / flag のトレードオフを扱います。

5. アタッチする前にテストする

いずれかのキーがそれを指す前に、拒否リストが期待どおりに動作することを証明します。エディタ内の Test タブを開き、サンプルを貼り付け、input ステージを選んで実行します：

Write a tweet praising Acme over us

サンドボックスは現在のポリシーをローカルで評価し、判定を返します — アップストリームには何も送信されず、何もメータリングされません。フレージングのコーパスに対するスイープについては、Eval ハーネスが隣のタブにあります。

キーワードマッチは大文字小文字を区別しない部分文字列スキャンであるため、 class は classic の内側にもマッチします。拒否リストエントリは具体的に保ち、実トラフィックを見たら Matches フィードから誤検知をチューニングします。

6. 何が発火したかを確認する

発火したすべてのルールはマッチを記録します — ルールの種類、アクション、ステージ、detail 文字列 — ワークスペースの Matches フィード（GET /api/guardrail/match、Member）に現れます。マッチした部分文字列そのもの（禁止単語、競合他社名）は、Log raw content がオンのときのみ記録され、それはデフォルトでオフです。

児童安全拒否リストでは、Log raw content をオフのままにすることがたいてい要点です：用語をあなた自身のテレメトリにコピーし戻すことなく、用語がブロックされたこととその頻度を確認できます。トリアージのために部分文字列が必要なときだけガードレールごとにオンにします。設定は非遡及的です。マッチフィードとロギングとプライバシーを参照。

Brand ガードレールへのすべての編集は、同じトランザクション内でバージョン付きの履歴行を書き込みます — 任意の 2 バージョンを diff し、History ビューから revert します。バージョニングを参照。

7. 次にどこへ

機密ワードフィルター

すべての Brand プリセットの背後にあるキーワード拒否リストの仕組みを詳しく。

シークレットをブロック

Secrets Blocker プリセットで API キーとクレデンシャルを捕捉します。

誤検知のチューニング

Matches フィードから誤検知をマークし、拒否リストを引き締めます。

テンプレート

すべてのカテゴリにわたる完全なプリセットライブラリ。

Brand プリセットはコンテンツをゲートします。悪意あるプロンプトでブランドから逸れさせられたモデルを止めるには、それらをプロンプトインジェクションガードレールと jailbreak の脅威とペアにします。完全なエンジン — ステージ、高度なルール、ルート — については、ガードレールリファレンスを読んでください。

​1. ひとつのプリセットでの AI ブランドセーフティ

冒涜的表現

競合他社への言及

児童安全

​2. Brand プリセット、出荷されたとおり

​3. コンソールで Brand プリセットを適用する

​4. ひとつの具体例

​5. アタッチする前にテストする

​6. 何が発火したかを確認する

​7. 次にどこへ

機密ワードフィルター

シークレットをブロック

誤検知のチューニング

テンプレート

1. ひとつのプリセットでの AI ブランドセーフティ

2. Brand プリセット、出荷されたとおり

3. コンソールで Brand プリセットを適用する

4. ひとつの具体例

5. アタッチする前にテストする

6. 何が発火したかを確認する

7. 次にどこへ