الانتقال إلى المحتوى الرئيسي
اليوم الذي تضع فيه وكيلاً أمام المستخدمين هو أسوأ يوم لاكتشاف أن كسر قيود يمرّ مباشرةً عبر سياسة محتواك، أو أن أداة نسيت حكمها تُطلق في أول تشغيل. يحوّل فريق أحمر ما قبل الإطلاق تلك المفاجآت إلى رقم تستطيع قراءته قبل أن تطلق — ويعطيك OrcaRouter ثلاث طرق لإنتاجه، كلها دون لمس كود وكيلك أو إرسال طلب حيّ واحد لم تقصده. هذه الوصفة هي تمريرة التشغيل التجريبي: قِس سياسة مقابل هجمات معروفة، وظلّلها مقابل حركة مرورك الخاصة، وحاكِ موقفاً أصرم قبل أن تلتزم به.
كل شيء هنا للقراءة فقط أو في صندوق رمل — لا حجب موجَّه للمستخدم، لا تأثير على حركة مرور الإنتاج. (تعمل قواعد الكلمة المفتاحية وregex وPII محليّاً بالكامل؛ ما زالت قاعدة llm_judge تستدعي نموذجها المضبوط، فتقييم سياسة قاضٍ يُجري ذلك الاستدعاء.) النقطة هي كسر الأشياء قبل الإطلاق، بشروطك.

1. كيف تختبر وكيل ذكاء اصطناعي بفريق أحمر قبل الإطلاق

فريق أحمر ما قبل الإطلاق يجيب ثلاثة أسئلة، ولـ OrcaRouter أداة لكل واحد:

هل يلتقط حاجز حمايتي الهجمات؟

شغّل أداة Eval لحاجز الحماية مقابل مجموعات تنافسية مرفقة واقرأ precision / recall / F1.

ماذا سيكسر جدار حمايتي؟

فعّل وضع الظل وراقب أي استدعاءات أدوات حقيقية ستُرفض — دون رفض أيٍّ منها بعد.

هل موقف أصرم آمن؟

حاكِ مستوى استقلالية لمعاينة ما سيغيّره بالضبط مقابل حركة مرورك قبل أن تطبّقه.
الأول يختبر حواجز الحماية لديك (مستوى النص)؛ الثاني والثالث يختبران جدار الحماية (مستوى الإجراء). قائمة تحقق إطلاق حقيقية تشغّل الثلاثة.

2. سجّل حاجز حمايتك مقابل مجموعات تنافسية

أسرع طريقة لمعرفة ما إذا كانت سياسة محتوى تنجو من التماس مع مهاجم هي رمي مجموعة من الهجمات المعروفة عليها وقراءة الدرجة. يفعل تبويب Eval في محرّر حاجز الحماية ذلك بالضبط: يعيد تشغيل كل عينة في مجموعة عبر سياستك الحالية ويقارن الحكم بالنتيجة المتوقَّعة لكل عينة — معيداً تشغيل المجموعة محليّاً مقابل قواعدك، لا مقابل حركة المرور الحية أبداً. يطرح OrcaRouter مجموعات فرق حمراء مرفقة بحيث لا تضطر لتوفير مجموعتك. من بينها:
المجموعةما هي
advbench_harmful_behaviorsمجموعة هدف اللاحقة التنافسية المعيارية — كل صف طلب غير آمن ينبغي لحاجز حماية حجبه.
anthropic_hh_redteamنصوص فريق أحمر بشري حقيقية متعددة الأدوار ضد مساعد.
deepset_prompt_injectionsحقن مطالبة مُعلَّم مقابل طلبات حميدة — خط أساس precision/recall لحجب مرحلة الإدخال.
databricks_dolly_benignخط أساس حميد محض: ينبغي لسياسة مفرطة الصرامة ألّا تحجب أيّاً منها.
اقرِن دائماً مجموعة هجوم بحميدة. سياسة تحجب 100% من الهجمات لكنها تحجب أيضاً databricks_dolly_benign ليست آمنة — إنها غير قابلة للاستخدام. التشغيل الحميد هو ميزانية إيجابياتك الكاذبة.
شغّل تقييماً مقابل المجموعة المرفقة deepset_prompt_injections:
curl https://api.orcarouter.ai/api/guardrail/123/eval \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>" \
  -H "Content-Type: application/json" \
  -d '{ "corpus_name": "deepset_prompt_injections" }'
تستخدم مسارات /api/guardrail/* جلسة وحدة تحكّمك / رمز وصولك، لا مفتاح ترحيل sk-orca-... — وهي ضمن نطاق مساحة العمل عبر X-Workspace-Id. عملياً ستشغّل هذا من تبويب Eval في وحدة التحكم؛ الـ curl هنا لإظهار الشكل. تشغيل تقييم مفتوح لأي Member.
يبلّغ التشغيل مقاييس الكشف المحسوبة مقابل الإجراءات المتوقَّعة:
  • TP / FP / FN / TN — الإيجابيات والسلبيات الصحيحة/الكاذبة، حيث تشمل “الإيجابية الكاذبة” التقاط هجوم بفئة إجراء خاطئة (مثلاً تقنيع حين توقّعت حجباً).
  • Precision / Recall / F1 — الأرقام الرئيسية. recall منخفض يعني أن الهجمات تتسلّل؛ precision منخفض يعني أنك تحجب حركة مرور حميدة.
افتح التشغيل لفحص الإخفاقات عينةً بعينة، اضبط القاعدة أو مقياس القاضي، وأعِد التشغيل حتى تصمد الدرجة. تعمل المجموعات المخصصة بنفس الطريقة — ارفع JSONL خاصاً بك (Developer+) للاختبار مقابل أشكال الهجوم بالضبط التي يواجهها منتجك.
أين يعيش دفاع حقن المطالبة. الإعداد المسبق المرفق Prompt-Injection Basics قاعدة كلمة مفتاحية على إجراء flag — يُظهر عبارات كسر القيود الشائعة للمراجعة دون حجب المستخدم. لنيّة الحقن الدلالية التي لا تلتقطها أي قائمة كلمات مفتاحية، أضف قاعدة llm_judge واختبرها بفريق أحمر بنفس الطريقة: قيّمها مقابل deepset_prompt_injections وanthropic_hh_redteam واقرأ الـ F1. انظر مرجع حاجز الحماية.

3. ظلّل جدار الحماية مقابل حركة مرور حقيقية

يختبر تقييم حاجز الحماية النص مقابل مجموعة ثابتة. أما جدار حمايتك، بالمقابل، فيحتاج اختباراً مقابل الواقع الفوضوي لما يفعله وكيلك فعلاً — وأأمن طريقة لفعل ذلك قبل الإطلاق هي وضع الظل. وضع الظل علم لكل سياسة يجعل جدار الحماية يقيّم ويسجّل كل استدعاء أداة تماماً كما سيفعل في الإنتاج، لكنه يُخفّض كل حكم فارض إلى audit. يصبح deny صف تدقيق سببه مسبوق بـ [shadow] would …. لا شيء يُحجب. لا شيء يُكسَر. لكن تغذية Events تُظهر لك الآن القائمة الدقيقة للاستدعاءات التي كانت سياستك سترفضها. هذا فريق أحمر جدار الحماية: ألّف أصرم سياسة تنويها، اقلب وضع الظل، شغّل وكيلك عبر بروفة إطلاق واقعية، ثم اقرأ أحداث [shadow] would ….
ابنِ سياستك الفارضة في وحدة التحكم (Developer+) — لتشغيل تجريبي للإطلاق، اضبط default_verdict على audit وأضف قواعد deny التي تنوي طرحها. اقلب وضع الظل. تسجّل السياسة كلها الآن دون فرض.
شغّل تدفّقات وكيلك الحقيقية مقابل البوابة بمفتاح مربوط بالسياسة المظلَّلة. كل استدعاء أداة — inbound، response، إرسال MCP، egress — يُقيَّم ويُسجَّل.
افتح Firewall → Events (Developer+) وصفِّ لأسباب [shadow] would …. كل واحد استدعاء كانت سياستك سترفضه في الإنتاج. أكّد أن كل مدخل استدعاء تريد رفضه — وأن لا شيء مشروع في القائمة.
بمجرد أن تكون قائمة الحجب المحتمل نظيفة، أطفئ وضع الظل. الاستدعاء المطابق التالي مباشرةً مفروض حقاً — بلا تغيير آخر.
اقرِن وضع الظل بـ وضع observe (إعداد مساحة عمل) للتغطية، لا الصحّة فحسب. يسجّل وضع observe كل استدعاء أداة يُحَل إلى لا سياسة كثغرة، مالئاً عرض Discovered tools — فتلتقط الأداة التي نسيت كتابة قاعدة لها، لا القواعد التي أخطأتها فحسب. انظر أوضاع الفرض.

4. حاكِ موقفاً أصرم قبل أن تلتزم

حركة الفريق الأحمر الثالثة هي الأرخص: قبل أن تطبّق مستوى استقلالية أصرم مستوى الاستقلالية، حاكِه. يعاين المحاكي ما سيغيّره تطبيق tight (أو أي مستوى) مقابل حركة مرور مساحة عملك الأخيرة — كم استدعاءً سيقلب إلى deny — دون كتابة صف سياسة واحد.
curl "https://api.orcarouter.ai/api/workspace/firewall/simulate?level=tight" \
  -H "Authorization: Bearer <your-session-token>" \
  -H "X-Workspace-Id: <workspace-id>"
قراءة المحاكي مفتوحة لأي Member. استخدمه للإجابة “هل وكيلي جاهز لـ tight؟” قبل الإطلاق: إذا أظهرت المعاينة جداراً من الرفض المحتمل على استدعاءات يعتمد عليها وكيلك، فلديك قواعد تليّنها قبل الإطلاق، لا حادثاً بعده.
المحاكاة معاينة فقط — لا تطفّر سياساتك أبداً. تطبيق مستوى استقلالية إجراء منفصل، Developer+، وهو معاملة واحدة بتراجع بنقرة واحدة إن فاجأتك النتيجة الحية رغم ذلك.

5. قائمة تحقق الفريق الأحمر ما قبل الإطلاق

اجمع التمريرات الثلاث وستحصل على بوابة إطلاق:
التمريرةالأداةأخضر عندما
سياسة المحتوىEval لحاجز الحماية مقابل مجموعات هجوم + حميدةrecall عالٍ على الهجمات، لا حجب على الحميد
سياسة الإجراءوضع الظل لجدار الحماية مقابل حركة البروفةكل [shadow] would … مقصود
التغطيةوضع observe + الأدوات المكتشفةلا أداة مفاجئة تجلس في ثغرة تغطية
الموقفحاكِ مستوى الاستقلالية الهدفالمعاينة تطابق ما تتوقّعه
شغّل الأربع خضراء، ثم افرض: اقلب وضع الظل وطبّق مستوى استقلاليتك. لأن كل ربط يعيش على المفتاح في البوابة، فالانتقال من التشغيل التجريبي إلى الحي تغيير ضبط، لا نشر — يستمر وكيلك في استدعاء https://api.orcarouter.ai/v1/... تماماً كما كان.
تقنيع مرحلة المخرجات وفحص الاستجابة الحي لا يزالان ينضجان — يثبت تشغيل تقييم منطق قاعدة في صندوق الرمل، لكن أكّد تركيبتك المحددة من المرحلة والتدفق مقابل ملاحظات حاجز الحماية قبل أن تعتمد عليها في الإنتاج.

6. الخطوات التالية

أوضاع الفرض

مراقبة ← ظل ← فرض، الطرح الآمن الذي تتمرّن عليه هذه الوصفة.

خط أساس الوكلاء الآمنين

ما يضبطه كل مستوى استقلالية — وكيف يعاينه simulate.

حقن المطالبة

التهديد الذي يسجّل تقييم حاجز حمايتك مقابله.

انطلق للحياة

التحوّل إلى الإنتاج بعد نجاح الفريق الأحمر.
للمحرّكات الكاملة خلف كل تمريرة، انظر مرجعي حواجز الحماية وجدار الحماية، والتهديدات ذات الصلة: كسر القيود و استدعاءات الأدوات الخطرة.