1. حالة استخدام تصفية الكلمات الحساسة في الذكاء الاصطناعي
قاعدةkeyword هي أبسط قاعدة في المحرك: تعطيها قائمة من المصطلحات،
فتطابق البوابة أياً منها مع النص في مرحلة. المطابقة جزئية غير حساسة
لحالة الأحرف — BadWord وbadword وBADWORD كلها تطابق، ويطابق
المصطلح حتى عندما يكون مدمجاً في كلمة أطول (فيطابق class أيضاً
classic). يُعامَل كل مصطلح كسلسلة حرفية، لا كنمط؛ لا تهرّب أحرف regex
الخاصة.
احفظ القاعدة مرة واحدة في وحدة التحكم، اربط حاجز الحماية بأي مفتاح API
(أو اجعله افتراضي مساحة العمل)، فيُفحص كل استدعاء على ذلك المفتاح بدون
تغيير في SDK وبدون إعادة نشر. تعيش السياسة في البوابة، لا في تطبيقك —
يبقى تطبيقك يستدعي /v1/chat/completions تماماً كما كان.
2. ألّف القاعدة في وحدة التحكم
كل خطوة هنا إجراء وحدة تحكم تحت جلستك الخاصة. إنشاء وتحرير حواجز الحماية يتطلب Developer+ في مساحة العمل. ولا يستخدم سوى الاستدعاء النهائي/v1/* مفتاح الترحيل sk-orca-....
أنشئ حاجز حماية
في وحدة التحكم، افتح Guardrails وانقر New guardrail. سمّه
(≤ 64 حرفاً)، مثل
banned-terms.أضف قاعدة keyword
أضف قاعدة واحدة:
- النوع: قائمة حظر كلمات مفتاحية (
keyword) - المرحلة: Both (الطلب والاستجابة)
- الإجراء: Block
- الكلمات المفتاحية: مصطلحاتك المحظورة، واحد في كل سطر
اختبره
افتح علامة التبويب Test، الصق عينة تحتوي على مصطلح محظور، اختر
مرحلة، وشغّل السياسة محلياً — بدون استدعاء للأعلى، بدون حصة (انظر
§5).
اربط مفتاحاً
حرّر مفتاح API واختر
banned-terms من قائمة Guardrail المنسدلة
(يضبط guardrail_id على المفتاح)، أو علّم حاجز الحماية افتراضي
مساحة العمل. انظر اربط بمفتاح
وافتراضي الحساب.3. اختر الإجراء
تختار قاعدة keyword إجراءً واحداً لكل قاعدة:Block — ارفض الاستدعاء
Block — ارفض الاستدعاء
أي مطابقة ترفض الطلب بـ HTTP 400
guardrail_blocked. الطلب
المحجوب لا يكلّف أي حصة — حجب مرحلة المدخلات يُطلق قبل القياس؛
وحجب مرحلة المخرجات يردّ الحصة المستهلكة مسبقاً — ويُعلَّم بـ
skip-retry. استخدمه للمصطلحات التي يجب ألا تمر في أي اتجاه. انظر
خطأ guardrail_blocked.Mask — نقّح المصطلح
Mask — نقّح المصطلح
تُستبدل كل مطابقة في مكانها بوسم تنقيح ويستمر الطلب بالنص المُنقّى —
لا يرى النموذج الأعلى المصطلح الأصلي أبداً. انظر
الإجراءات.
Flag — مراقبة فقط
Flag — مراقبة فقط
يسجّل مطابقة ولا يغيّر شيئاً في حركة المرور. استخدمه لقياس كم مرة
يظهر مصطلح قبل أن تتحول إلى الفرض.
Spotlight — غلّف كبيانات غير موثوقة (مدخلات)
Spotlight — غلّف كبيانات غير موثوقة (مدخلات)
يغلّف النص المطابق بفواصل (مثل
⟦UNTRUSTED⟧…⟦/UNTRUSTED⟧) بحيث
يعامله النموذج كـ بيانات، لا تعليمات — دفاع حقن مطالبات في مرحلة
المدخلات. ما زال النص يصل إلى النموذج، لكنه مسيّج. انظر
الإجراءات.المرحلة مهمة.
input يمسح طلب المستدعي، وoutput يمسح استجابة
النموذج، وboth يمسح كل جانب باستقلال. مصطلح محظور يكتبه مستخدموك وآخر
قد يصدره نموذج مشكلتان مختلفتان — اختر المرحلة/المراحل التي تناسب. انظر
قواعد مرحلة المدخلات و
قواعد مرحلة المخرجات.4. تغطية البث
الإجراء الذي تختاره يتفاعل مع ما إذا كانت الاستجابة تُبَثّ:| الإجراء | غير البث | البث |
|---|---|---|
block (مخرجات) | مفروض | مفروض — يقطع الماسح التدفق |
mask (مخرجات) | مفروض | ليس بعد — يُحترَم قرار الحجب، لكن النص المُخفى لا يُمرَّر (خارطة الطريق) |
5. اختبر قبل أن تربط
أثبت أن القاعدة تفعل ما تتوقعه قبل أن يشير إليها أي مفتاح. افتح علامة التبويب Test داخل المحرر، الصق عينة، اختر المرحلة، وشغّل:6. أرسل طلباً
باستخدام مفتاح مربوط بـbanned-terms، استدعِ OrcaRouter تماماً كما كان
— بدون ترويسات جديدة، بدون تغيير في SDK:
guardrail_blocked قبل
أن يصل أبداً إلى النموذج. بدّل الإجراء إلى mask فيُنقّح المصطلح في
مكانه قبل إعادة التوجيه بدلاً من ذلك.
7. انظر ما أُطلق
كل قاعدة تُطلق تسجّل مطابقة — نوع القاعدة، الإجراء، المرحلة، وسلسلة تفصيل (لقواعد keyword، كم مصطلحاً طابق) — تبرز في تغذية Matches لمساحة العمل. إذا ظل مصطلح حميد يطابق (مدخل قائمة حظر هو سلسلة فرعية من كلمة شائعة)، وسمه كإيجابية كاذبة من تغذية المطابقات وشدّد المدخل. انظر ضبط الإيجابيات الكاذبة.8. إلى أين تذهب بعد ذلك
كواشف regex
طابق الأنماط المهيكلة — SKU، أرقام الطلبات، الصيغ — عندما لا تكفي
قائمة حظر حرفية.
سلامة العلامة التجارية
إعدادات مسبقة للألفاظ النابية وذكر المنافسين وسلامة الأطفال مبنية على
قواعد keyword.
الإجراءات
كيف يختلف block وmask وflag ومتى تستخدم كل واحد.
مرجع حواجز الحماية
المحرك الكامل — كل نوع قاعدة، وحقل، ومسار.
llm_judge فحصاً دلالياً مقابل
نموذج في مساحة العمل.