تصفية الكلمات الحساسة والمصطلحات المحظورة

لديك قائمة من المصطلحات التي يجب ألا تصل إلى نموذج أو تعود منه أبداً — اسم منافس، اسم رمزي داخلي، شتيمة محظورة، منتج لم يُعلَن بعد. أسرع ضابط لذلك هو قائمة حظر كلمات مفتاحية: قائمة من المصطلحات الحرفية تمسحها البوابة على كل استدعاء ثم تحجبها أو تخفيها أو تعلّمها. هذه صفحة مركّزة لحالة استخدام المصطلحات المحظورة. لمحرك حواجز الحماية الكامل — كل نوع قاعدة، وحقل، ومسار — انظر مرجع حواجز الحماية.

1. حالة استخدام تصفية الكلمات الحساسة في الذكاء الاصطناعي

قاعدة keyword هي أبسط قاعدة في المحرك: تعطيها قائمة من المصطلحات، فتطابق البوابة أياً منها مع النص في مرحلة. المطابقة جزئية غير حساسة لحالة الأحرف — BadWord وbadword وBADWORD كلها تطابق، ويطابق المصطلح حتى عندما يكون مدمجاً في كلمة أطول (فيطابق class أيضاً classic). يُعامَل كل مصطلح كسلسلة حرفية، لا كنمط؛ لا تهرّب أحرف regex الخاصة. احفظ القاعدة مرة واحدة في وحدة التحكم، اربط حاجز الحماية بأي مفتاح API (أو اجعله افتراضي مساحة العمل)، فيُفحص كل استدعاء على ذلك المفتاح بدون تغيير في SDK وبدون إعادة نشر. تعيش السياسة في البوابة، لا في تطبيقك — يبقى تطبيقك يستدعي /v1/chat/completions تماماً كما كان.

الجأ إلى قاعدة keyword عندما تكون قائمة حظرك مجموعة منتهية من المصطلحات الحرفية. عندما تحتاج أحرفاً بدلية، أو حدود كلمات، أو بنية (صيغة SKU، شكل رقم طلب)، استخدم كاشف regex بدلاً من ذلك.

2. ألّف القاعدة في وحدة التحكم

كل خطوة هنا إجراء وحدة تحكم تحت جلستك الخاصة. إنشاء وتحرير حواجز الحماية يتطلب Developer+ في مساحة العمل. ولا يستخدم سوى الاستدعاء النهائي /v1/* مفتاح الترحيل sk-orca-....

أنشئ حاجز حماية

في وحدة التحكم، افتح Guardrails وانقر New guardrail. سمّه (≤ 64 حرفاً)، مثل banned-terms.

أضف قاعدة keyword

أضف قاعدة واحدة:

النوع: قائمة حظر كلمات مفتاحية (keyword)
المرحلة: Both (الطلب والاستجابة)
الإجراء: Block
الكلمات المفتاحية: مصطلحاتك المحظورة، واحد في كل سطر

احفظ.

اختبره

افتح علامة التبويب Test، الصق عينة تحتوي على مصطلح محظور، اختر مرحلة، وشغّل السياسة محلياً — بدون استدعاء للأعلى، بدون حصة (انظر §5).

اربط مفتاحاً

حرّر مفتاح API واختر banned-terms من قائمة Guardrail المنسدلة (يضبط guardrail_id على المفتاح)، أو علّم حاجز الحماية افتراضي مساحة العمل. انظر اربط بمفتاح وافتراضي الحساب.

JSON القاعدة هو بالضبط ما تتوقعه:

{
  "type": "keyword",
  "stage": "both",
  "action": "block",
  "keywords": ["project-orca", "competitor-name", "unannounced-sku"]
}

3. اختر الإجراء

تختار قاعدة keyword إجراءً واحداً لكل قاعدة:

Block — ارفض الاستدعاء

أي مطابقة ترفض الطلب بـ HTTP 400 guardrail_blocked. الطلب المحجوب لا يكلّف أي حصة — حجب مرحلة المدخلات يُطلق قبل القياس؛ وحجب مرحلة المخرجات يردّ الحصة المستهلكة مسبقاً — ويُعلَّم بـ skip-retry. استخدمه للمصطلحات التي يجب ألا تمر في أي اتجاه. انظر خطأ guardrail_blocked.

Mask — نقّح المصطلح

تُستبدل كل مطابقة في مكانها بوسم تنقيح ويستمر الطلب بالنص المُنقّى — لا يرى النموذج الأعلى المصطلح الأصلي أبداً. انظر الإجراءات.

Flag — مراقبة فقط

يسجّل مطابقة ولا يغيّر شيئاً في حركة المرور. استخدمه لقياس كم مرة يظهر مصطلح قبل أن تتحول إلى الفرض.

Spotlight — غلّف كبيانات غير موثوقة (مدخلات)

يغلّف النص المطابق بفواصل (مثل ⟦UNTRUSTED⟧…⟦/UNTRUSTED⟧) بحيث يعامله النموذج كـ بيانات، لا تعليمات — دفاع حقن مطالبات في مرحلة المدخلات. ما زال النص يصل إلى النموذج، لكنه مسيّج. انظر الإجراءات.

المرحلة مهمة. input يمسح طلب المستدعي، وoutput يمسح استجابة النموذج، وboth يمسح كل جانب باستقلال. مصطلح محظور يكتبه مستخدموك وآخر قد يصدره نموذج مشكلتان مختلفتان — اختر المرحلة/المراحل التي تناسب. انظر قواعد مرحلة المدخلات و قواعد مرحلة المخرجات.

4. تغطية البث

الإجراء الذي تختاره يتفاعل مع ما إذا كانت الاستجابة تُبَثّ:

الإجراء	غير البث	البث
`block` (مخرجات)	مفروض	مفروض — يقطع الماسح التدفق
`mask` (مخرجات)	مفروض	ليس بعد — يُحترَم قرار الحجب، لكن النص المُخفى لا يُمرَّر (خارطة الطريق)

قواعد مرحلة المدخلات تعمل قبل الاستدعاء الأعلى، فلا تتأثر بالبث — mask المدخلات ينقّي الطلب سواء بُثّت الاستجابة أم لا. وحجب block لمصطلح محظور يحصل على تغطية كاملة بأي حال. أما mask المخرجات فينقّح على الاستجابات غير المبثوثة فقط اليوم: على ردّ مبثوث ما زال الماسح يتصرف بناءً على قرار الحجب، لكن إعادة كتابة النص المبثوث ضمن النطاق على خارطة الطريق، لا حية. انظر تغطية البث.

5. اختبر قبل أن تربط

أثبت أن القاعدة تفعل ما تتوقعه قبل أن يشير إليها أي مفتاح. افتح علامة التبويب Test داخل المحرر، الصق عينة، اختر المرحلة، وشغّل:

Tell me about Project-Orca and our competitor-name

يقيّم الـ sandbox السياسة الحالية محلياً ويعيد الحكم — لا يُرسَل شيء للأعلى، ولا يُقاس شيء. بإجراء block تُرفض العينة؛ وبـ mask يعود النص المُصيَّر مع تنقيح كل مصطلح. لشبكة A/B مقابل مجموعة — لتأكيد أن قائمة حظر تصطاد ما ينبغي دون تعليم حركة المرور الحميدة — تعيش أداة التقييم على بُعد علامة تبويب واحدة.

6. أرسل طلباً

باستخدام مفتاح مربوط بـ banned-terms، استدعِ OrcaRouter تماماً كما كان — بدون ترويسات جديدة، بدون تغيير في SDK:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Summarize Project-Orca for me"}
    ]
  }'

بإجراء block يُرفض الاستدعاء بـ HTTP 400 guardrail_blocked قبل أن يصل أبداً إلى النموذج. بدّل الإجراء إلى mask فيُنقّح المصطلح في مكانه قبل إعادة التوجيه بدلاً من ذلك.

7. انظر ما أُطلق

كل قاعدة تُطلق تسجّل مطابقة — نوع القاعدة، الإجراء، المرحلة، وسلسلة تفصيل (لقواعد keyword، كم مصطلحاً طابق) — تبرز في تغذية Matches لمساحة العمل.

المصطلح المطابق نفسه يُسجَّل فقط عند تفعيل Log raw content، وهو مُطفأ افتراضياً — الموقف المحافظ على الخصوصية. مع إطفائه ما زلت ترى أن قاعدة keyword أُطلقت وكم مرة، لكن ليس المصطلح الحرفي. فعّله لكل حاجز حماية عندما تحتاج السلسلة الفرعية للفرز؛ الإعداد غير رجعي. انظر تغذية المطابقات و التسجيل والخصوصية.

إذا ظل مصطلح حميد يطابق (مدخل قائمة حظر هو سلسلة فرعية من كلمة شائعة)، وسمه كإيجابية كاذبة من تغذية المطابقات وشدّد المدخل. انظر ضبط الإيجابيات الكاذبة.

8. إلى أين تذهب بعد ذلك

كواشف regex

طابق الأنماط المهيكلة — SKU، أرقام الطلبات، الصيغ — عندما لا تكفي قائمة حظر حرفية.

سلامة العلامة التجارية

إعدادات مسبقة للألفاظ النابية وذكر المنافسين وسلامة الأطفال مبنية على قواعد keyword.

الإجراءات

كيف يختلف block وmask وflag ومتى تستخدم كل واحد.

مرجع حواجز الحماية

المحرك الكامل — كل نوع قاعدة، وحقل، ومسار.

قائمة حظر الكلمات المفتاحية تحكم المحتوى. لحكم استدعاءات أدوات وكيل — رفض الإجراءات المدمّرة، تنقيح وسائط استدعاء الأداة، طلب موافقة — استخدم جدار الحماية. للسياسات الضبابية التي لا تستطيع قائمة حرفية التعبير عنها (السُّمية، الخروج عن الموضوع، نية الحقن)، تشغّل قاعدة llm_judge فحصاً دلالياً مقابل نموذج في مساحة العمل.

​1. حالة استخدام تصفية الكلمات الحساسة في الذكاء الاصطناعي

​2. ألّف القاعدة في وحدة التحكم

​3. اختر الإجراء

​4. تغطية البث

​5. اختبر قبل أن تربط

​6. أرسل طلباً

​7. انظر ما أُطلق

​8. إلى أين تذهب بعد ذلك

كواشف regex

سلامة العلامة التجارية

الإجراءات

مرجع حواجز الحماية

1. حالة استخدام تصفية الكلمات الحساسة في الذكاء الاصطناعي

2. ألّف القاعدة في وحدة التحكم

3. اختر الإجراء

4. تغطية البث

5. اختبر قبل أن تربط

6. أرسل طلباً

7. انظر ما أُطلق

8. إلى أين تذهب بعد ذلك