1. لماذا تختبر سياسات حاجز الحماية قبل أن تربط مفتاحاً
لسياسة المحتوى نمطا فشل، وهما يشدّان في اتجاهين متعاكسين:- الفوات — هجوم أو تسريب يتسلل لأن لا قاعدة أُطلقت.
- الإيجابيات الكاذبة — مطالبة حميدة تُحجب أو تُخفى لأن قاعدة مفرطة الاتساع.
كلتا الأداتين تعملان بالكامل على جلستك عبر API الإداري
(
/api/guardrail/*) — وليس أبداً مفتاح الترحيل. تقيّمان النص محلياً
ولا ترسلان شيئاً للأعلى، فتشغيل اختبار لا يكلّف حصة نموذج.2. علامة التبويب Test — عينة واحدة، حكم فوري
لكل محرر حاجز حماية علامة تبويب Test. الصق عينة، اختر مرحلة (input
أو output)، وشغّل المسودة الحالية للسياسة. تستعيد القرار الكامل —
blocked، mutated، النص sanitized، وقائمة violations — بحيث
تثبت أن قاعدة واحدة تفعل ما تتوقعه قبل الحفظ.
افتح المحرر
في وحدة التحكم اذهب إلى
/console/guardrails، افتح حاجز الحماية،
واختر علامة التبويب Test.3. علامة التبويب Eval — سجّل سياسة مقابل مجموعة
علامة التبويب Eval تشغّل حاجز حمايتك مقابل مجموعة من العينات الموسومة وتبلّغ عن نتيجته: الدقة، والاستدعاء، وF1 إجمالاً ولكل فئة، بالإضافة إلى العينات الدقيقة التي أخطأها. استخدمها لضبط معيارllm_judge،
أو إثبات أن قاعدة حجب تصطاد عائلة هجوم معروفة، أو اصطياد regex مفرط
الاتساع قبل أن يبدأ برفض حركة المرور الجيدة.
يبثّ التشغيل التقدم كما يمضي (حدث واحد لكل عينة مكتملة) ويحفظ صف تشغيل
يمكنك إعادة فتحه لاحقاً — queued → running → complete، مع لقطة للقواعد
وقت التشغيل بحيث لا يعيد تحرير لاحق لحاجز الحماية كتابة حكم تشغيل قديم
أبداً.
المجموعات المُرفقة
مجموعات فريق أحمر وحميدة مدمجة في البوابة — حقن المطالبات، jailbreak،
PII/الأسرار، متعددة اللغات، الرفض المفرط. بلا إعداد.
JSONL مخصص
ارفع مجموعتك الموسومة الخاصة لقياس السياسة مقابل أشكال حركة مرورك
الحقيقية.
4. كيف تبدو مجموعة (JSONL)
المجموعة JSONL — كائن JSON واحد لكل سطر. كل سطر عينة موسومة:text
المراد تقييمه، وstage التي ينتمي إليها، وexpected_action الذي
ينبغي أن تنتجه السياسة. يقارن المشغّل حكم السياسة الفعلي بذلك الوسم
لتسجيل التشغيل.
مرجع الحقول
مرجع الحقول
| الحقل | المعنى |
|---|---|
id | فريد لكل صف. مطلوب — صفوف id الفارغ تُسقَط كمشوّهة. |
text | المطالبة أو الإكمال المراد تقييمه. مطلوب. |
stage | input أو output — قواعد أي مرحلة تشغّل العينة من خلالها. |
expected_action | block أو mask أو flag أو "" (حميد — لا إجراء متوقع). |
category | وسم حر يصنّف المقاييس لكل فئة. |
الصفوف المشوّهة مُتسامَح معها، لا صامتة
الصفوف المشوّهة مُتسامَح معها، لا صامتة
صف بـ JSON سيئ أو
id/text مفقود يُتخطى ويُحصى، لا مميت — خطأ
مطبعي واحد لا يفجّر التشغيل بأكمله. يرفع المحمّل مخزنه للمطالبات
الطويلة متعددة الأسطر، فعينة بأسطر جديدة مضمّنة داخل سلسلة JSON واحدة
تُحلَّل جيداً.5. المجموعات المُرفقة — مجموعات فريق أحمر، بلا إعداد
تشحن البوابة كتالوجاً من المجموعات المنسّقة يمكنك تشغيلها فوراً — كل منها تحمل مصدرها، ورخصتها، وتغطيتها اللغوية، ومعاينة عينة في المنتقي. مجمّعة في 11 فئة تمتد عبر سطح الهجوم الذي تراه حركة المرور الحقيقية:| الفئة | ما تستكشفه |
|---|---|
prompt_injection | تجاوز التعليمات وحقن مكتوب بشرياً. |
jailbreak_single_turn | jailbreak حقيقي في البرية + خط أساس سلوك أكاديمي. |
jailbreak_encoded_multiturn | مسبارات base64 / ROT13 / leetspeak / تقسيم الحمولة. |
indirect_agent | حقن مُسلَّم عبر مخرجات الأدوات إلى وكيل يستخدم الأدوات. |
multilingual | مطالبات فريق أحمر بلغة الناطق الأصلي عبر لغات كثيرة، بما فيها قليلة الموارد. |
pii_secrets | عناوين البريد الإلكتروني، SSN، البطاقات، IBAN، مفاتيح API، مفاتيح AWS، JWT. |
toxicity | مطالبات توليد سامّ وتباينات الرفض المفرط. |
bias | مسبارات الصور النمطية والتمييز. |
hallucination | مجموعات واقعية / أمانة عدائية. |
hazardous_knowledge | مسبارات معرفة كيميائية / حيوية / سيبرانية ثنائية الاستخدام. |
over_refusal_benign | مطالبات آمنة تبدو غير آمنة — حارس انحدار إيجابياتك الكاذبة. |
مجموعة
owasp_llm_top10 المُرفقة هي مجموعة اختبار موسومة تغطي عائلات
هجوم OWASP LLM Top 10 (حقن المطالبات، jailbreak، مخرجات غير آمنة، تسريب
بيانات) — إنها مجموعة لتشغيل تقييم مقابلها، لا حزمة امتثال. لحزم الأطر
التي تجسّد السياسات، انظر
الامتثال.6. مثال واحد ملموس — قيّم الإعداد المسبق PII Shield
لنقل إنك بدأت من الإعداد المسبق PII Shield (قاعدةpii واحدة،
mask) وتريد تأكيد أنه يصطاد أشكال المعرّفات التي قد يصدرها نموذج قبل أن
تربطه بمفتاح. شغّله مقابل مجموعة pii_smoke المُرفقة.
التقييم إجراء مستوى قراءة (POST /api/guardrail/:id/eval،
Member) — يحفظ صف تشغيل لكنه لا يعدّل أي سياسة:
expected مقابل got) بحيث يمكنك grep المجموعة وإصلاح القاعدة. أعد
فتحه في أي وقت من قائمة Runs (GET /api/guardrail/:id/eval/runs).
7. المجموعات المخصصة — اختبر مقابل حركة مرورك الخاصة
المجموعات المُرفقة تثبت أن السياسة تعالج الهجمات المعروفة. لإثبات أنها تعالج مطالباتك، ارفع JSONL خاصاً بك. هناك ثلاث طرق لتوجيه تقييم نحو مجموعة، وتُحَل بهذا الترتيب:رفع مؤقت (corpus_data)
رفع مؤقت (corpus_data)
مرّر كتلة JSONL مُرمَّزة base64 سطرياً على طلب التقييم. يفوز على كل ما
عداه — تكرّر على مجموعة مسودة دون حفظها في مساحة العمل.
مجموعة محفوظة (corpus_id)
مجموعة محفوظة (corpus_id)
ارفع مرة عبر
POST /api/guardrail/eval/corpora (Developer+)، ثم
أشِر إليها بمعرّفها في التشغيلات المستقبلية. يجب أن يطابق الاسم
^[a-z][a-z0-9_]*$ ولا يمكنه تظليل اسم مُرفق.مُرفقة (corpus_name)
مُرفقة (corpus_name)
سمِّ إحدى المجموعات المشحونة، كما في §6.
GET /api/guardrail/eval/corpora (Member)؛ الرفع والحذف
Developer+.
8. قراءة النتيجة
يصنّف المشغّل كل عينة في مصفوفة ارتباك ويشتق المقاييس الرئيسية منها:| المصطلح | المعنى |
|---|---|
| الاستدعاء (Recall) | من المطالبات التي ينبغي أن تطلق السياسة، كم فعلت. استدعاء منخفض = فوات. |
| الدقة (Precision) | من المطالبات التي أطلقتها السياسة، كم كان ينبغي. دقة منخفضة = إيجابيات كاذبة. |
| F1 | المتوسط التوافقي — رقم واحد يعاقب الضبط غير المتوازن. |
9. إلى أين تذهب بعد ذلك
ضبط الإيجابيات الكاذبة
حوّل قائمة فشل إلى سياسة أصرم وأقل تشويشاً.
تغطية البث
أي مجموعات مرحلة/إجراء تثبت على حركة SSE — تحقق قبل أن تعتمد عليها.
تغذية المطابقات
بمجرد أن تصبح حية، كل قاعدة تُطلق تهبط هنا — النظير الإنتاجي للتقييم.
الإصدارات
قارن وتراجع عن سياسة بعد أن يخبرك تقييم أن التغيير الأخير انحدر.
صفحات حواجز حماية ذات صلة
صفحات حواجز حماية ذات صلة
مفاهيم وتهديدات ذات صلة
مفاهيم وتهديدات ذات صلة
المرجع الكامل للمحرك
المرجع الكامل للمحرك
حواجز الحماية — كل نوع قاعدة، وحقل، ومسار،
بما في ذلك واجهة التقييم والمجموعات.
