1. لماذا يهمّ فحص البوابة للدفاع ضد jailbreaks
التدريب الأمني للنموذج هو خط الدفاع الأول، وليس الوحيد. تُعاد تدريب النماذج على مجموعات هجوم جديدة، لكن عبارات jailbreak تتطور أسرع من دورات التدريب. قاعدة البوابة تُطلَق بشكل حتمي — لا تعتمد على الحالة الداخلية للنموذج — وتنطبق بالتساوي على كل نموذج خلف مفتاحك، بما فيها النماذج المُضبَّطة دقيقاً والأوزان المفتوحة التي قد تمتلك حواجز حماية مدمجة أضعف. يمنحك فحص البوابة أيضاً مسار تدقيق. كل قاعدة تُطلَق تُسجَّل في تغذية Matches لمساحة العمل — نوع القاعدة، والإجراء، والتفاصيل، والمرحلة — بشكل مستقل عمّا أعاده النموذج في نهاية المطاف.2. نوعا القاعدتين لفحص jailbreak
يوفّر محرك حواجز الحماية في OrcaRouter نهجين متكاملَين. استخدمهما معاً للدفاع المتعمق.الفحص الدلالي — llm_judge
تُجري قاعدة llm_judge فحصاً دلالياً مقابل نموذج في مساحة عملك. تكتب
معياراً يصف ما يُعدّ محاولة jailbreak؛ يُضيف المحرك ملحق JSON-schema
حتى يُعيد النموذج حكماً قابلاً للتحليل.
judge_fail_open: true (الافتراضي) يعني أن مهلة judge أو خطأه يُسجَّل
كقياسات ويستمر الطلب — يتراجع الأمان، ويُحفَظ التوفّر. اضبطه على false
للفشل المغلق إذا كان فحص فائت غير مقبول في حالة استخدامك.
يسلك استدعاء judge عبر قنوات مساحة عملك؛ تُفوتَر الرموز وتُنسَب كسطر
فرعي للـ judge.
قائمة الرفض الحرفية — keyword وregex
لعبارات jailbreak المعروفة والأنماط الهيكلية، تكون قواعد keyword وregex
حتمية وتضيف زمن استجابة صفري — تعمل على المسار الساخن بدون استدعاء شبكي.
keyword هو مطابقة سلسلة جزئية غير حساسة لحالة الأحرف. مصطلح مثل
do anything now يطابق أيضاً Do Anything Now وyou can do anything now.
regex يقبل أنماط RE2 (زمن خطي، بدون مراجع خلفية). استخدمه لأنماط حيل
الترميز أو المتغيرات الهيكلية التي لا تستطيع قائمة حرفية تغطيتها.
3. فحص مرحلة المخرجات
فحص المدخلات يصطاد المحاولة. فحص مرحلة المخرجات يصطاد تجاوزاً ناجحاً — استجابة لا ينبغي إنتاجها بصرف النظر عن السبب. أضف قاعدةllm_judge أو keyword ثانية على stage: "output" للتعليم أو
حجب استجابة تحتوي محتوى محظوراً قبل وصولها للعميل.
البث مقابل غير البث
الإجراء مهم هنا:| الإجراء | غير بث | بث |
|---|---|---|
block | تُحجب الاستجابة؛ HTTP 400 guardrail_blocked | يقطع الماسح البث في منتصف الطريق ويُصدر رسالة بديلة — المحتوى المحجوب لا يصل للعميل أبداً |
mask | يُنقَّح التطابق في النص المُعاد | ينطبق حالياً على الاستجابات غير البث فقط؛ إعادة الكتابة داخل البث على خارطة الطريق |
block يعمل بشكل صحيح.
طلب محجوب لا يكلّف حصة. حجب مرحلة المخرجات يُسترد فيه الحصة
المُستهلَكة مسبقاً بعد رفض الاستجابة. يتلقى المُستدعي HTTP 400
guardrail_blocked يُسمّي حاجز الحماية والقاعدة التي أُطلقت.4. الإعداد المسبق لأمان Jailbreak
تُشحن وحدة التحكم بإعداد مسبق Jailbreak في فئة قوالب Safety إلى جانب Prompt-Injection Basics. يجمع بين قاعدةllm_judge للمدخلات وقائمة
رفض keyword لعبارات jailbreak المعروفة كنقطة بداية جاهزة.
لتطبيقه: افتح /console/guardrails → New guardrail → تصفّح مكتبة
القوالب → Safety → Jailbreak. الإعداد المسبق هو بذرة — عدّل المعيار،
وسِّع قائمة الكلمات المفتاحية، وأضف قواعد مرحلة المخرجات لتناسب احتياجات
تطبيقك.
5. اختبر سياستك قبل الشحن
قبل ربط حاجز حماية jailbreak بمفتاح إنتاج، تحقق منه في eval / منفذ الفريق الأحمر على تبويب Eval داخل محرر حاجز الحماية.- مجموعات هجوم مجمَّعة — تُشحن البوابة بمجموعات فريق أحمر تشمل متغيرات jailbreak، والتحايل متعدد اللغات، وحيل الترميز. شغِّل سياستك عليها لقياس معدل الاصطياد قبل رؤية حركة المرور الحقيقية.
- مجموعات مخصصة — حمِّل ملف JSONL خاصاً بك للاختبار مقابل عبارات خاصة بنطاقك أو نموذج تهديدك.
- مجموعات إيجابية كاذبة — تُشحن مجموعات حميدة جانب العدائية. شغِّل الاثنتين للتأكد من عدم حجب حركة المرور الشرعية.
- تشغيلات Eval مُدرجة بدرجات؛ افتح تشغيلاً لفحص الإخفاقات عينةً بعينة وضبط المعيار.
6. شكل السياسة الموصى به
تُراكم سياسة jailbreak قوية ثلاث قواعد في حاجز حماية واحد:| # | القاعدة | المرحلة | الإجراء | لماذا |
|---|---|---|---|---|
| 1 | keyword — عبارات jailbreak المعروفة | input | block | زمن استجابة صفري؛ يصطاد العبارات المعروفة بشكل حتمي |
| 2 | llm_judge — معيار نية jailbreak | input | block | يصطاد المتغيرات الجديدة وحيل الترميز التي تفوّتها قائمة الكلمات المفتاحية |
| 3 | llm_judge — معيار الاستجابة المحظورة | output | block | دفاع متعمق: يحجب تجاوزاً ناجحاً قبل وصوله للعميل |
block فقط بعد أن يُظهر تشغيل تقييم معدل إيجابيات كاذبة مقبولاً.
انظر أوضاع الإنفاذ لنمط طرح observe
→ shadow → enforce باستخدام إجراءات flag ووضع الظل.
7. العلاقة بحقن المطالبة
Jailbreaks وحقن المطالبة تهديدان متميزان لكنهما متداخلان:- Jailbreak يستهدف التدريب الأمني للنموذج — المهاجم يتحكم في رسالة المستخدم المباشرة ويصيغها لقمع حواجز الحماية.
- حقن المطالبة يستهدف اتباع التعليمات — يحمل المحتوى غير الموثوق (صفحة ويب، أو نتيجة أداة، أو مستند) تعليمات يعاملها النموذج كتوجيهات.
llm_judge وkeyword تصطاد كليهما؛ المعيار يختلف. لأعباء العمل
الوكيلة التي تستوعب مستندات أو محتوى ويب غير موثوق، شغِّل فحص الحقن جانب
فحص jailbreak. انظر حقن المطالبة
لأنماط القواعد الخاصة بالحقن.
مرجع حواجز الحماية
مرجع كامل لأنواع القواعد، والإجراءات، والمراحل، وLLM judge، ومنفذ
التقييم، وتغذية Matches.
حقن المطالبة
فحص التعليمات المحقونة من المحتوى غير الموثوق في خطوط أنابيب الوكيل.
