1. حماية حقن المطالبات في ثلاث طبقات
لا يوقف فحص واحد كل حقن. يمنحك OrcaRouter ثلاث طبقات متكاملة يمكنك تكديسها على حاجز حماية واحد:أساسيات حقن المطالبات
إعداد مسبق للسلامة — قاعدة keyword تعلّم عبارات jailbreak
الكلاسيكية (“تجاهل التعليمات السابقة”، “اكشف مطالبة نظامك”)
للمراجعة، دون حجب. حتمي، بلا استدعاء نموذج.
قاعدة نية LLM-judge
قاعدة
llm_judge تسأل نموذجاً في مساحة عملك “هل هذه محاولة لتجاوز
تعليمات النظام؟” — تصطاد الحقن المعاد صياغته والمشوّش الذي لا
تستطيعه أي قائمة كلمات مفتاحية ثابتة. تفوتر سطراً فرعياً صغيراً للـ
judge.سلّط الضوء على النص غير الموثوق
إجراء
spotlight يغلّف المدخلات غير الموثوقة المطابقة بفواصل (مثل
⟦UNTRUSTED⟧…⟦/UNTRUSTED⟧) ويخبر النموذج بمعاملة المنطقة كـ
بيانات، لا تعليمات أبداً — أقوى دفاع للحقن غير المباشر من
المحتوى المسترجع أو المُعاد من الأدوات. استخدم spotlight_whole
لتغليف المدخلات كاملة.لماذا التعليم ثم التقييم. قائمة حظر كلمات مفتاحية سريعة ومجانية لكنها
هشة — يعيد المهاجمون الصياغة حولها. الـ judge متين لكنه يكلّف استدعاءً
فرعياً. شغّل الإعداد المسبق لرؤية ما يصيب حركة مرورك، ثم أضف الـ judge
لاصطياد إعادات الصياغة. تعيش كلتا القاعدتين على حاجز حماية واحد وتعملان
على نفس الطلب.
2. ابدأ بالإعداد المسبق أساسيات حقن المطالبات
كل خطوة هنا إجراء وحدة تحكم على البوابة المستضافة تحت جلستك الخاصة. إنشاء وتحرير حواجز الحماية يتطلب Developer+ في مساحة العمل. ولا يستخدم سوى الاستدعاء النهائي/v1/* مفتاح الترحيل sk-orca-....
افتح القالب
في وحدة التحكم، افتح Guardrails، انقر زر New guardrail
المنقسم، واختر Prompt-Injection Basics من فئة قوالب Safety.
يبذر قاعدة
keyword واحدة في مرحلة input بإجراء flag.سمِّ واحفظ
سمّه (≤ 64 حرفاً)، مثل
prompt-injection، واحفظ. الإعداد المسبق
بذرة، لا قفل — أضف أو أزل العبارات بحرية بعد ذلك.اختبره
افتح علامة التبويب Test، الصق عينة في مرحلة
input، وشغّل
السياسة محلياً — بدون استدعاء للأعلى، بدون حصة (انظر
§4).اربط مفتاحاً
حرّر مفتاح API واختر
prompt-injection من قائمة Guardrail
المنسدلة (يضبط guardrail_id على المفتاح)، أو علّمه افتراضي
مساحة العمل. انظر اربط بمفتاح
وافتراضي الحساب.3. اصطد ما تفوته الكلمات المفتاحية — أضف قاعدة llm_judge
مطابقة الكلمات المفتاحية تصطاد فقط العبارات التي أدرجتها. أضف قاعدةllm_judge إلى نفس حاجز الحماية لاصطياد النية وراء هجوم مُعاد
الصياغة. افتح حاجز الحماية، Add rule، اختر LLM judge، وكوّن:
judge_model
judge_model
نموذج أو اسم موجه مستعار تستطيع مساحة عملك استدعاءه بالفعل. يمر
استدعاء الـ judge عبر قنواتك، فتُفوتر رموزه وتُنسب كأي استدعاء آخر —
كـ سطر فرعي للـ judge.
judge_format
judge_format
إحدى
yes_no أو score أو category. لفحص حقن، yes_no هو
الملاءمة الطبيعية (تختاره وحدة التحكم مسبقاً). مع score، اضبط
judge_threshold؛ مع category، أدرج judge_categories المرفوضة.judge_timeout_ms و judge_fail_open
judge_timeout_ms و judge_fail_open
judge_timeout_ms يحدّ الاستدعاء (0 ← افتراضي المحرك). مع
judge_fail_open true (الافتراضي) يُسجَّل خطأ الـ judge ويستمر
الطلب؛ اضبطه false لمعاملة الخطأ أو المهلة كحجب حيث يكون فحص فائت
غير مقبول.4. اختبر قبل أن تربط
أثبت أن حاجز الحماية يفعل ما تتوقعه قبل أن يشير إليه أي مفتاح. افتح علامة التبويب Test داخل المحرر، الصق عينة حقن، اختر مرحلةinput، وشغّل:
5. انظر ما أُطلق
كل قاعدة تُطلق تسجّل مطابقة — نوع القاعدة، الإجراء، المرحلة، وسلسلة تفصيل — تبرز في تغذية Matches لمساحة العمل. وبينما حاجز الحماية في وضع flag، فهذه التغذية هي القيمة: تُظهر لك كم مرة تصيب عبارات الحقن حركة مرورك وكيف تبدو، بحيث يمكنك تقرير الفرض.6. كدّسه مع أشقاء أصرم
أساسيات حقن المطالبات هي نقطة الانطلاق اللطيفة، التعليم فقط. تشحن فئة قوالب Safety أشقاء أصرم يمكنك تركيبهم على نفس حاجز الحماية عندما تكون جاهزاً لـ block:| الإعداد المسبق | الإجراء | يصطاد |
|---|---|---|
| Prompt-Injection Basics | flag | العبارات الكلاسيكية — طبقة المراقبة. |
| Jailbreak / Role-Play Blocker | block | أنماط DAN / developer-mode / “act as”. |
| Jailbreak v2 Regex | block | الأنماط الأحدث + تهريب Unicode tag-byte غير المرئي. |
7. حواجز الحماية تفحص النص؛ جدار الحماية يحكم الإجراءات
حاجز الحماية يوقف التعليمة المحقونة من الوصول إلى النموذج. لكن هدف الحقن الناجح عادةً هو جعل وكيل يفعل شيئاً — استدعاء أداة خطرة، تسريب بيانات، إصابة مضيف داخلي. نصف قطر الانفجار ذاك هو مهمة جدار الحماية: يقيّم استدعاءات الأدوات التي يصدرها النموذج ويمكنهdeny، أو sanitize الوسائط، أو طلب موافقة. شغّل كليهما
للدفاع في العمق.
حقن المطالبات (تهديد)
نموذج التهديد الكامل وأين يجلس كل ضابط.
Jailbreaks
قريب تجاوز الشخصية للحقن.
استدعاءات الأدوات الخطرة
ما يحاول الحقن جعل وكيل يفعله — وكيف يوقفه جدار الحماية.
تأمين وكلاء الذكاء الاصطناعي
مجموعة التحكم الأساسية لأعباء العمل الوكيلة.
llm_judge،
والإصدارات، والمسارات — اقرأ
مرجع حواجز الحماية.