1. لماذا الفحص بحثاً عن مخرجات ذكاء اصطناعي غير آمنة في مرحلة الإخراج
يلتقط فحص الإدخال مطالبة سيئة. لكنه لا يستطيع التقاط إجابة سيئة: نموذج استُدرج خارج السياسة، أو ضبط دقيق بحواجز مدمجة أضعف، أو مطالبة معقولة تماماً أنتجت إكمالاً غير معقول. مرحلة الإخراج هي حيث تؤكّد “بغض النظر عن السبب، هذا النص لا يغادر البوابة”. تُطلق قاعدة البوابة حتمياً وتنطبق بالتساوي على كل نموذج خلف مفتاحك. وكل قاعدة تُطلق تنتهي في تغذية Matches لمساحة العمل — نوع القاعدة، والإجراء، والمرحلة — فيكون لديك مسار تدقيق لما التُقط وما سُمح بمروره.الدفاع يعيش في البوابة، لا في تطبيقك. حرّر حاجز الحماية فيسري التغيير
في الاستدعاء التالي لكل مفتاح مربوط به — بلا إعادة نشر، بلا تغيير SDK.
يبقى تطبيقك يستدعي
/v1/chat/completions تماماً كما من قبل.2. الطريقتان لالتقاطها
اقرن قائمة رفض حتمية بقاضٍ دلالي للدفاع المتعمّق.حرفي — كلمة مفتاحية / تعبير نمطي (بلا زمن انتظار)
حرفي — كلمة مفتاحية / تعبير نمطي (بلا زمن انتظار)
قاعدة
keyword هي مطابقة سلسلة فرعية غير حساسة للحالة؛ وقاعدة regex
هي نمط RE2 (زمن خطي، بلا مراجع خلفية). كلاهما يعمل على المسار الساخن
بلا استدعاء شبكة — مثالي لقائمة كلمات محظورة معروفة، أو قائمة رفض
منافسين، أو نمط بنيوي (رمز قالب محادثة مسرَّب، أو عبارة قاطعة “أنت
مستحقّ للتعويضات”).دلالي — llm_judge (يلتقط ما لا يستطيعه أي regex)
دلالي — llm_judge (يلتقط ما لا يستطيعه أي regex)
تقيّم قاعدة
llm_judge الاستجابة مقابل معيار تكتبه أنت باستخدام نموذج
في مساحة عملك — السميّة، والنبرة خارج هوية العلامة، والنصيحة خارج
السياسة التي لا تلتقطها أي قائمة حرفية. تحمل judge_timeout_ms، وهي
fail-open افتراضياً (خطأ القاضي يُسجَّل وتستمر الاستجابة)، وتُفوتَر
رموزها كسطر فرعي للقاضي. انظر مرجع قاضي
LLM.3. مثال ملموس واحد — احجب السام، أخفِ خارج هوية العلامة
حاجز حماية واحد في مرحلة الإخراج يحجب استجابة سامة دلالياً ويخفي مصطلحات علامة محظورة في كل ما تبقّى:/console/guardrails ← New guardrail،
أضف القاعدتين، واربطه بمفتاح من محرّر Token (يعيش الربط على المفتاح
كـ guardrail_id). يعمل الضبط على جلسة وحدة التحكم لديك، لا على مفتاح
الترحيل؛ ووحدها مكالمة /v1/* أدناه تستخدم مفتاح sk-orca-....
guardrail_blocked. وإن كانت نظيفة لكنها تذكر مصطلحاً محظوراً، يُعرَض ذلك
المقطع كحجب مكتوب وتتدفّق البقية.
4. ابدأ من إعداد مسبق
تطرح مكتبة قوالب New guardrail نقاط انطلاق جاهزة في الفئات Safety وBrand وCompliance. الإعداد المسبق بذرة — طبّقه، ثم حرّر بحرية.| الفئة | إعداد مرحلة الإخراج المسبق للانطلاق منه |
|---|---|
| Safety | System-Prompt Leak Detector (output)، وStrong System Prompt Leak — علّم/احجب الاستجابات التي تردّد رموز مطالبة النظام أو قالب المحادثة. |
| Brand | Profanity Filter (mask) — يعمل على المرحلتين ويخفي الكلمات في قائمة الرفض داخل الاستجابة. (إعدادات Profanity / Brand Safety وCompetitor Mentions بنمط الحجب هي بذور مرحلة إدخال؛ أعد توجيه نسخة إلى output إن أردتها أن تفحص الإجابة.) |
| Compliance | Legal Disclaimer Enforce — علّم الاستجابات التي تقدّم نصيحة قانونية/مالية قاطعة لمراجعة الفريق. |
5. التدفّق: التحذير المهمّ
ما إذا كانت قاعدة الإخراج تُفرَض حيّاً يعتمد على الإجراء وعلى ما إذا كنت تتدفّق.| الإجراء | غير متدفّق | متدفّق |
|---|---|---|
block | الاستجابة محجوبة؛ HTTP 400 guardrail_blocked | يقطع ماسحٌ التدفّق في منتصف الطيران ويُصدر رسالة بديلة — لا يصل المحتوى المحجوب إلى العميل أبداً |
mask | المطابقة محجوبة في النص المُعاد | غير متدفّق فقط اليوم؛ إعادة كتابة التدفّق داخل النطاق على خارطة الطريق |
flag | يسجّل مطابقة، لا يغيّر شيئاً | يسجّل مطابقة، لا يغيّر شيئاً |
6. شكل السياسة الموصى به
طبّق ثلاث قواعد في حاجز حماية واحد
-
keyword/regexفيoutput— التقاط بلا زمن انتظار للمصطلحات المحظورة المعروفة والأنماط البنيوية. -
llm_judgeفيoutput— التقاط السميّة / خارج هوية العلامة / خارج السياسة دلالياً لما تفوّته القائمة الحرفية. -
اطرح عبر
flagأولاً، راقب تغذية Matches، ثم رقِّ إلىblockبمجرد أن يصبح معدل الإيجابيات الكاذبة مقبولاً. انظر أوضاع الفرض.
مرجع حواجز الحماية
مرجع كامل لأنواع القواعد، والإجراءات، والمراحل، وقاضي LLM، والإعدادات
المسبقة، وأداة التقييم، وتغذية Matches.
تسريب البيانات
إيقاف خروج البيانات الحساسة في استجابة نموذج أو استدعاء أداة.
