اختبر وكيلك بفريق أحمر قبل الإطلاق

اليوم الذي تضع فيه وكيلاً أمام المستخدمين هو أسوأ يوم لاكتشاف أن كسر قيود يمرّ مباشرةً عبر سياسة محتواك، أو أن أداة نسيت حكمها تُطلق في أول تشغيل. يحوّل فريق أحمر ما قبل الإطلاق تلك المفاجآت إلى رقم تستطيع قراءته قبل أن تطلق — ويعطيك OrcaRouter ثلاث طرق لإنتاجه، كلها دون لمس كود وكيلك أو إرسال طلب حيّ واحد لم تقصده. هذه الوصفة هي تمريرة التشغيل التجريبي: قِس سياسة مقابل هجمات معروفة، وظلّلها مقابل حركة مرورك الخاصة، وحاكِ موقفاً أصرم قبل أن تلتزم به.

كل شيء هنا للقراءة فقط أو في صندوق رمل — لا حجب موجَّه للمستخدم، لا تأثير على حركة مرور الإنتاج. (تعمل قواعد الكلمة المفتاحية وregex وPII محليّاً بالكامل؛ ما زالت قاعدة llm_judge تستدعي نموذجها المضبوط، فتقييم سياسة قاضٍ يُجري ذلك الاستدعاء.) النقطة هي كسر الأشياء قبل الإطلاق، بشروطك.

1. كيف تختبر وكيل ذكاء اصطناعي بفريق أحمر قبل الإطلاق

فريق أحمر ما قبل الإطلاق يجيب ثلاثة أسئلة، ولـ OrcaRouter أداة لكل واحد:

هل يلتقط حاجز حمايتي الهجمات؟

شغّل أداة Eval لحاجز الحماية مقابل مجموعات تنافسية مرفقة واقرأ precision / recall / F1.

ماذا سيكسر جدار حمايتي؟

فعّل وضع الظل وراقب أي استدعاءات أدوات حقيقية ستُرفض — دون رفض أيٍّ منها بعد.

هل موقف أصرم آمن؟

حاكِ مستوى استقلالية لمعاينة ما سيغيّره بالضبط مقابل حركة مرورك قبل أن تطبّقه.

الأول يختبر حواجز الحماية لديك (مستوى النص)؛ الثاني والثالث يختبران جدار الحماية (مستوى الإجراء). قائمة تحقق إطلاق حقيقية تشغّل الثلاثة.

2. سجّل حاجز حمايتك مقابل مجموعات تنافسية

أسرع طريقة لمعرفة ما إذا كانت سياسة محتوى تنجو من التماس مع مهاجم هي رمي مجموعة من الهجمات المعروفة عليها وقراءة الدرجة. يفعل تبويب Eval في محرّر حاجز الحماية ذلك بالضبط: يعيد تشغيل كل عينة في مجموعة عبر سياستك الحالية ويقارن الحكم بالنتيجة المتوقَّعة لكل عينة — معيداً تشغيل المجموعة محليّاً مقابل قواعدك، لا مقابل حركة المرور الحية أبداً. يطرح OrcaRouter مجموعات فرق حمراء مرفقة بحيث لا تضطر لتوفير مجموعتك. من بينها:

المجموعة	ما هي
`advbench_harmful_behaviors`	مجموعة هدف اللاحقة التنافسية المعيارية — كل صف طلب غير آمن ينبغي لحاجز حماية حجبه.
`anthropic_hh_redteam`	نصوص فريق أحمر بشري حقيقية متعددة الأدوار ضد مساعد.
`deepset_prompt_injections`	حقن مطالبة مُعلَّم مقابل طلبات حميدة — خط أساس precision/recall لحجب مرحلة الإدخال.
`databricks_dolly_benign`	خط أساس حميد محض: ينبغي لسياسة مفرطة الصرامة ألّا تحجب أيّاً منها.

اقرِن دائماً مجموعة هجوم بحميدة. سياسة تحجب 100% من الهجمات لكنها تحجب أيضاً databricks_dolly_benign ليست آمنة — إنها غير قابلة للاستخدام. التشغيل الحميد هو ميزانية إيجابياتك الكاذبة.

شغّل تقييماً مقابل المجموعة المرفقة deepset_prompt_injections:

curl https://api.orcarouter.ai/api/guardrail/123/eval \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>" \
  -H "Content-Type: application/json" \
  -d '{ "corpus_name": "deepset_prompt_injections" }'

تستخدم مسارات /api/guardrail/* جلسة وحدة تحكّمك / رمز وصولك، لا مفتاح ترحيل sk-orca-... — وهي ضمن نطاق مساحة العمل عبر X-Workspace-Id. عملياً ستشغّل هذا من تبويب Eval في وحدة التحكم؛ الـ curl هنا لإظهار الشكل. تشغيل تقييم مفتوح لأي Member.

يبلّغ التشغيل مقاييس الكشف المحسوبة مقابل الإجراءات المتوقَّعة:

TP / FP / FN / TN — الإيجابيات والسلبيات الصحيحة/الكاذبة، حيث تشمل “الإيجابية الكاذبة” التقاط هجوم بفئة إجراء خاطئة (مثلاً تقنيع حين توقّعت حجباً).
Precision / Recall / F1 — الأرقام الرئيسية. recall منخفض يعني أن الهجمات تتسلّل؛ precision منخفض يعني أنك تحجب حركة مرور حميدة.

افتح التشغيل لفحص الإخفاقات عينةً بعينة، اضبط القاعدة أو مقياس القاضي، وأعِد التشغيل حتى تصمد الدرجة. تعمل المجموعات المخصصة بنفس الطريقة — ارفع JSONL خاصاً بك (Developer+) للاختبار مقابل أشكال الهجوم بالضبط التي يواجهها منتجك.

أين يعيش دفاع حقن المطالبة. الإعداد المسبق المرفق Prompt-Injection Basics قاعدة كلمة مفتاحية على إجراء flag — يُظهر عبارات كسر القيود الشائعة للمراجعة دون حجب المستخدم. لنيّة الحقن الدلالية التي لا تلتقطها أي قائمة كلمات مفتاحية، أضف قاعدة llm_judge واختبرها بفريق أحمر بنفس الطريقة: قيّمها مقابل deepset_prompt_injections وanthropic_hh_redteam واقرأ الـ F1. انظر مرجع حاجز الحماية.

3. ظلّل جدار الحماية مقابل حركة مرور حقيقية

يختبر تقييم حاجز الحماية النص مقابل مجموعة ثابتة. أما جدار حمايتك، بالمقابل، فيحتاج اختباراً مقابل الواقع الفوضوي لما يفعله وكيلك فعلاً — وأأمن طريقة لفعل ذلك قبل الإطلاق هي وضع الظل. وضع الظل علم لكل سياسة يجعل جدار الحماية يقيّم ويسجّل كل استدعاء أداة تماماً كما سيفعل في الإنتاج، لكنه يُخفّض كل حكم فارض إلى audit. يصبح deny صف تدقيق سببه مسبوق بـ [shadow] would …. لا شيء يُحجب. لا شيء يُكسَر. لكن تغذية Events تُظهر لك الآن القائمة الدقيقة للاستدعاءات التي كانت سياستك سترفضها. هذا فريق أحمر جدار الحماية: ألّف أصرم سياسة تنويها، اقلب وضع الظل، شغّل وكيلك عبر بروفة إطلاق واقعية، ثم اقرأ أحداث [shadow] would ….

ألّف السياسة، ثم ظلّلها

ابنِ سياستك الفارضة في وحدة التحكم (Developer+) — لتشغيل تجريبي للإطلاق، اضبط default_verdict على audit وأضف قواعد deny التي تنوي طرحها. اقلب وضع الظل. تسجّل السياسة كلها الآن دون فرض.

مرّن الوكيل كأنه يوم الإطلاق

شغّل تدفّقات وكيلك الحقيقية مقابل البوابة بمفتاح مربوط بالسياسة المظلَّلة. كل استدعاء أداة — inbound، response، إرسال MCP، egress — يُقيَّم ويُسجَّل.

اقرأ قائمة الحجب المحتمل

افتح Firewall → Events (Developer+) وصفِّ لأسباب [shadow] would …. كل واحد استدعاء كانت سياستك سترفضه في الإنتاج. أكّد أن كل مدخل استدعاء تريد رفضه — وأن لا شيء مشروع في القائمة.

اقلب الظل لتنطلق للحياة

بمجرد أن تكون قائمة الحجب المحتمل نظيفة، أطفئ وضع الظل. الاستدعاء المطابق التالي مباشرةً مفروض حقاً — بلا تغيير آخر.

اقرِن وضع الظل بـ وضع observe (إعداد مساحة عمل) للتغطية، لا الصحّة فحسب. يسجّل وضع observe كل استدعاء أداة يُحَل إلى لا سياسة كثغرة، مالئاً عرض Discovered tools — فتلتقط الأداة التي نسيت كتابة قاعدة لها، لا القواعد التي أخطأتها فحسب. انظر أوضاع الفرض.

4. حاكِ موقفاً أصرم قبل أن تلتزم

حركة الفريق الأحمر الثالثة هي الأرخص: قبل أن تطبّق مستوى استقلالية أصرم مستوى الاستقلالية، حاكِه. يعاين المحاكي ما سيغيّره تطبيق tight (أو أي مستوى) مقابل حركة مرور مساحة عملك الأخيرة — كم استدعاءً سيقلب إلى deny — دون كتابة صف سياسة واحد.

curl "https://api.orcarouter.ai/api/workspace/firewall/simulate?level=tight" \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>"

قراءة المحاكي مفتوحة لأي Member. استخدمه للإجابة “هل وكيلي جاهز لـ tight؟” قبل الإطلاق: إذا أظهرت المعاينة جداراً من الرفض المحتمل على استدعاءات يعتمد عليها وكيلك، فلديك قواعد تليّنها قبل الإطلاق، لا حادثاً بعده.

المحاكاة معاينة فقط — لا تطفّر سياساتك أبداً. تطبيق مستوى استقلالية إجراء منفصل، Developer+، وهو معاملة واحدة بتراجع بنقرة واحدة إن فاجأتك النتيجة الحية رغم ذلك.

5. قائمة تحقق الفريق الأحمر ما قبل الإطلاق

اجمع التمريرات الثلاث وستحصل على بوابة إطلاق:

التمريرة	الأداة	أخضر عندما
سياسة المحتوى	Eval لحاجز الحماية مقابل مجموعات هجوم + حميدة	recall عالٍ على الهجمات، لا حجب على الحميد
سياسة الإجراء	وضع الظل لجدار الحماية مقابل حركة البروفة	كل `[shadow] would …` مقصود
التغطية	وضع observe + الأدوات المكتشفة	لا أداة مفاجئة تجلس في ثغرة تغطية
الموقف	حاكِ مستوى الاستقلالية الهدف	المعاينة تطابق ما تتوقّعه

شغّل الأربع خضراء، ثم افرض: اقلب وضع الظل وطبّق مستوى استقلاليتك. لأن كل ربط يعيش على المفتاح في البوابة، فالانتقال من التشغيل التجريبي إلى الحي تغيير ضبط، لا نشر — يستمر وكيلك في استدعاء https://api.orcarouter.ai/v1/... تماماً كما كان.

تقنيع مرحلة المخرجات وفحص الاستجابة الحي لا يزالان ينضجان — يثبت تشغيل تقييم منطق قاعدة في صندوق الرمل، لكن أكّد تركيبتك المحددة من المرحلة والتدفق مقابل ملاحظات حاجز الحماية قبل أن تعتمد عليها في الإنتاج.

6. الخطوات التالية

أوضاع الفرض

مراقبة ← ظل ← فرض، الطرح الآمن الذي تتمرّن عليه هذه الوصفة.

خط أساس الوكلاء الآمنين

ما يضبطه كل مستوى استقلالية — وكيف يعاينه simulate.

حقن المطالبة

التهديد الذي يسجّل تقييم حاجز حمايتك مقابله.

انطلق للحياة

التحوّل إلى الإنتاج بعد نجاح الفريق الأحمر.

للمحرّكات الكاملة خلف كل تمريرة، انظر مرجعي حواجز الحماية وجدار الحماية، والتهديدات ذات الصلة: كسر القيود و استدعاءات الأدوات الخطرة.

​1. كيف تختبر وكيل ذكاء اصطناعي بفريق أحمر قبل الإطلاق

هل يلتقط حاجز حمايتي الهجمات؟

ماذا سيكسر جدار حمايتي؟

هل موقف أصرم آمن؟

​2. سجّل حاجز حمايتك مقابل مجموعات تنافسية

​3. ظلّل جدار الحماية مقابل حركة مرور حقيقية

​4. حاكِ موقفاً أصرم قبل أن تلتزم

​5. قائمة تحقق الفريق الأحمر ما قبل الإطلاق

​6. الخطوات التالية

أوضاع الفرض

خط أساس الوكلاء الآمنين

حقن المطالبة

انطلق للحياة

1. كيف تختبر وكيل ذكاء اصطناعي بفريق أحمر قبل الإطلاق

2. سجّل حاجز حمايتك مقابل مجموعات تنافسية

3. ظلّل جدار الحماية مقابل حركة مرور حقيقية

4. حاكِ موقفاً أصرم قبل أن تلتزم

5. قائمة تحقق الفريق الأحمر ما قبل الإطلاق

6. الخطوات التالية