كل شيء هنا للقراءة فقط أو في صندوق رمل — لا حجب موجَّه للمستخدم، لا تأثير
على حركة مرور الإنتاج. (تعمل قواعد الكلمة المفتاحية وregex وPII محليّاً
بالكامل؛ ما زالت قاعدة
llm_judge تستدعي نموذجها المضبوط، فتقييم سياسة
قاضٍ يُجري ذلك الاستدعاء.) النقطة هي كسر الأشياء قبل الإطلاق، بشروطك.1. كيف تختبر وكيل ذكاء اصطناعي بفريق أحمر قبل الإطلاق
فريق أحمر ما قبل الإطلاق يجيب ثلاثة أسئلة، ولـ OrcaRouter أداة لكل واحد:هل يلتقط حاجز حمايتي الهجمات؟
شغّل أداة Eval لحاجز الحماية مقابل مجموعات تنافسية مرفقة واقرأ
precision / recall / F1.
ماذا سيكسر جدار حمايتي؟
فعّل وضع الظل وراقب أي استدعاءات أدوات حقيقية ستُرفض — دون رفض
أيٍّ منها بعد.
هل موقف أصرم آمن؟
حاكِ مستوى استقلالية لمعاينة ما سيغيّره بالضبط مقابل حركة مرورك
قبل أن تطبّقه.
2. سجّل حاجز حمايتك مقابل مجموعات تنافسية
أسرع طريقة لمعرفة ما إذا كانت سياسة محتوى تنجو من التماس مع مهاجم هي رمي مجموعة من الهجمات المعروفة عليها وقراءة الدرجة. يفعل تبويب Eval في محرّر حاجز الحماية ذلك بالضبط: يعيد تشغيل كل عينة في مجموعة عبر سياستك الحالية ويقارن الحكم بالنتيجة المتوقَّعة لكل عينة — معيداً تشغيل المجموعة محليّاً مقابل قواعدك، لا مقابل حركة المرور الحية أبداً. يطرح OrcaRouter مجموعات فرق حمراء مرفقة بحيث لا تضطر لتوفير مجموعتك. من بينها:| المجموعة | ما هي |
|---|---|
advbench_harmful_behaviors | مجموعة هدف اللاحقة التنافسية المعيارية — كل صف طلب غير آمن ينبغي لحاجز حماية حجبه. |
anthropic_hh_redteam | نصوص فريق أحمر بشري حقيقية متعددة الأدوار ضد مساعد. |
deepset_prompt_injections | حقن مطالبة مُعلَّم مقابل طلبات حميدة — خط أساس precision/recall لحجب مرحلة الإدخال. |
databricks_dolly_benign | خط أساس حميد محض: ينبغي لسياسة مفرطة الصرامة ألّا تحجب أيّاً منها. |
deepset_prompt_injections:
- TP / FP / FN / TN — الإيجابيات والسلبيات الصحيحة/الكاذبة، حيث تشمل “الإيجابية الكاذبة” التقاط هجوم بفئة إجراء خاطئة (مثلاً تقنيع حين توقّعت حجباً).
- Precision / Recall / F1 — الأرقام الرئيسية. recall منخفض يعني أن الهجمات تتسلّل؛ precision منخفض يعني أنك تحجب حركة مرور حميدة.
أين يعيش دفاع حقن المطالبة. الإعداد المسبق المرفق Prompt-Injection
Basics قاعدة كلمة مفتاحية على إجراء flag — يُظهر عبارات كسر القيود
الشائعة للمراجعة دون حجب المستخدم. لنيّة الحقن الدلالية التي لا تلتقطها
أي قائمة كلمات مفتاحية، أضف قاعدة
llm_judge واختبرها بفريق أحمر بنفس
الطريقة: قيّمها مقابل deepset_prompt_injections وanthropic_hh_redteam
واقرأ الـ F1. انظر مرجع حاجز الحماية.3. ظلّل جدار الحماية مقابل حركة مرور حقيقية
يختبر تقييم حاجز الحماية النص مقابل مجموعة ثابتة. أما جدار حمايتك، بالمقابل، فيحتاج اختباراً مقابل الواقع الفوضوي لما يفعله وكيلك فعلاً — وأأمن طريقة لفعل ذلك قبل الإطلاق هي وضع الظل. وضع الظل علم لكل سياسة يجعل جدار الحماية يقيّم ويسجّل كل استدعاء أداة تماماً كما سيفعل في الإنتاج، لكنه يُخفّض كل حكم فارض إلىaudit. يصبح
deny صف تدقيق سببه مسبوق بـ [shadow] would …. لا شيء يُحجب. لا شيء
يُكسَر. لكن تغذية Events تُظهر لك الآن القائمة الدقيقة للاستدعاءات
التي كانت سياستك سترفضها.
هذا فريق أحمر جدار الحماية: ألّف أصرم سياسة تنويها، اقلب وضع الظل، شغّل
وكيلك عبر بروفة إطلاق واقعية، ثم اقرأ أحداث [shadow] would ….
ألّف السياسة، ثم ظلّلها
ألّف السياسة، ثم ظلّلها
ابنِ سياستك الفارضة في وحدة التحكم (Developer+) — لتشغيل تجريبي
للإطلاق، اضبط
default_verdict على audit وأضف قواعد deny التي تنوي
طرحها. اقلب وضع الظل. تسجّل السياسة كلها الآن دون فرض.مرّن الوكيل كأنه يوم الإطلاق
مرّن الوكيل كأنه يوم الإطلاق
شغّل تدفّقات وكيلك الحقيقية مقابل البوابة بمفتاح مربوط بالسياسة
المظلَّلة. كل استدعاء أداة — inbound، response، إرسال MCP، egress —
يُقيَّم ويُسجَّل.
اقرأ قائمة الحجب المحتمل
اقرأ قائمة الحجب المحتمل
افتح Firewall → Events (Developer+) وصفِّ لأسباب
[shadow] would …. كل واحد استدعاء كانت سياستك سترفضه في الإنتاج.
أكّد أن كل مدخل استدعاء تريد رفضه — وأن لا شيء مشروع في القائمة.اقلب الظل لتنطلق للحياة
اقلب الظل لتنطلق للحياة
بمجرد أن تكون قائمة الحجب المحتمل نظيفة، أطفئ وضع الظل. الاستدعاء
المطابق التالي مباشرةً مفروض حقاً — بلا تغيير آخر.
4. حاكِ موقفاً أصرم قبل أن تلتزم
حركة الفريق الأحمر الثالثة هي الأرخص: قبل أن تطبّق مستوى استقلالية أصرم مستوى الاستقلالية، حاكِه. يعاين المحاكي ما سيغيّره تطبيقtight (أو أي مستوى) مقابل
حركة مرور مساحة عملك الأخيرة — كم استدعاءً سيقلب إلى deny — دون كتابة
صف سياسة واحد.
tight؟” قبل الإطلاق: إذا أظهرت المعاينة جداراً من الرفض المحتمل على
استدعاءات يعتمد عليها وكيلك، فلديك قواعد تليّنها قبل الإطلاق، لا حادثاً
بعده.
المحاكاة معاينة فقط — لا تطفّر سياساتك أبداً. تطبيق مستوى استقلالية
إجراء منفصل، Developer+، وهو معاملة واحدة بتراجع بنقرة واحدة إن
فاجأتك النتيجة الحية رغم ذلك.
5. قائمة تحقق الفريق الأحمر ما قبل الإطلاق
اجمع التمريرات الثلاث وستحصل على بوابة إطلاق:| التمريرة | الأداة | أخضر عندما |
|---|---|---|
| سياسة المحتوى | Eval لحاجز الحماية مقابل مجموعات هجوم + حميدة | recall عالٍ على الهجمات، لا حجب على الحميد |
| سياسة الإجراء | وضع الظل لجدار الحماية مقابل حركة البروفة | كل [shadow] would … مقصود |
| التغطية | وضع observe + الأدوات المكتشفة | لا أداة مفاجئة تجلس في ثغرة تغطية |
| الموقف | حاكِ مستوى الاستقلالية الهدف | المعاينة تطابق ما تتوقّعه |
https://api.orcarouter.ai/v1/... تماماً كما كان.
6. الخطوات التالية
أوضاع الفرض
مراقبة ← ظل ← فرض، الطرح الآمن الذي تتمرّن عليه هذه الوصفة.
خط أساس الوكلاء الآمنين
ما يضبطه كل مستوى استقلالية — وكيف يعاينه
simulate.حقن المطالبة
التهديد الذي يسجّل تقييم حاجز حمايتك مقابله.
انطلق للحياة
التحوّل إلى الإنتاج بعد نجاح الفريق الأحمر.
