rm -rf /
يردّده النموذج إلى أداة shell، UNION SELECT يصدره لمشغّل SQL لينفذه.
سياسة محتوى لا تفكر إلا في PII أو الأسرار تفوت الأربعة. توجد فئة
الإعدادات المسبقة Agent لهذا الشكل بالضبط — قواعد regex حتمية
تحجب الطلب أو الاستجابة قبل أن تتصرف أداة لاحقة بناءً عليه أبداً.
هذه صفحة مركّزة لحالة الاستخدام الوكيلة. لمحرك حواجز الحماية الكامل —
كل نوع قاعدة، وحقل، ومرحلة، ومسار — انظر
مرجع حواجز الحماية.
1. لماذا حواجز حماية الوكيل سطح متمايز
حاجز الحماية يفحص المحتوى — النص في الطلب والنص في الاستجابة. وبالنسبة لوكيل، يصبح ذلك النص إجراءً: يُجلَب رابط URL، يُصيَّر markdown، يُشغَّل سطر shell، يُنفَّذ SQL. فنفس محركblock / mask الذي تستخدمه
لـ PII يؤدي مهمة مزدوجة هنا — يوقف حمولة عند البوابة قبل أن تتمكن طبقة
أدوات الوكيل من تحويلها إلى أثر جانبي.
تشحن فئة Agent أربعة إعدادات مسبقة، كل منها قاعدة regex بإجراء
block، موزّعة عبر المرحلتين:
URL Filter — مدخلات، block
URL Filter — مدخلات، block
يحجب أي رابط
http(s) على الطلب. استخدمه لتدفقات الوكيل حيث يجب
وضع قائمة سماح لروابط URL الصادرة بدلاً من فتحها. النمط المبذور يطابق
أي رابط؛ حرّر الـ regex للسماح بنطاقات محددة.Markdown Image Block — مخرجات، block
Markdown Image Block — مخرجات، block
يحجب تضمينات صور markdown (
) في استجابة النموذج.
يدافع ضد تسريب تصيير الصور على العملاء الذين يحمّلون الصور البعيدة
تلقائياً — قناة تسريب بيانات كلاسيكية حيث يهرّب رابط صورة مُصيَّرة
بيانات للخارج.Tool Call Shell Block — مدخلات، block
Tool Call Shell Block — مدخلات، block
يحجب أنماط حقن shell الواضحة في الطلب (
rm -rf /، curl … | sh،
wget … | bash، تصعيد sudo). استخدمه لتدفقات الوكيل التي قد تعيد
توجيه مدخلات المستخدم إلى أداة shell.SQL Injection in Output — مخرجات، block
SQL Injection in Output — مخرجات، block
يحجب استجابات النموذج التي تحمل حمولات حقن SQL الكلاسيكية (
UNION SELECT، OR 1=1، DROP TABLE، منهيات التعليقات). دفاع في العمق
للأدوات التي تنفذ تلقائياً SQL أنتجه النموذج.إعدادان مسبقان يفحصان المدخلات، واثنان يفحصان المخرجات. URL Filter
وTool Call Shell Block يُطلقان على الطلب — قبل أن يعمل النموذج، قبل
قياس أي حصة. وMarkdown Image Block وSQL Injection in Output يُطلقان على
الاستجابة — بعد أن يجيب النموذج، قبل أن يصل المحتوى إلى عميلك أو طبقة
أدواته. معرفة أي مرحلة يعيش عليها خطر هي اللعبة كلها؛ انظر
مرحلة المدخلات و
مرحلة المخرجات.
2. طبّق حاجز حماية وكيل في وحدة التحكم
كل خطوة هنا إجراء وحدة تحكم على البوابة المستضافة تحت جلستك الخاصة. إنشاء وتحرير حواجز الحماية يتطلب Developer+ في مساحة العمل. ولا يستخدم سوى الاستدعاء النهائي/v1/* مفتاح الترحيل sk-orca-... — حاجز
الحماية نفسه يُكوَّن بالكامل في وحدة التحكم.
افتح القالب
في وحدة التحكم، افتح Guardrails، انقر زر New guardrail
المنقسم، واختر إعداداً مسبقاً من فئة قوالب Agent — مثل Markdown
Image Block. يبذر قاعدة حجب
regex واحدة في المرحلة الصحيحة.سمِّ واحفظ
امنحه اسماً (≤ 64 حرفاً)، مثل
agent-rails، واحفظ. الإعداد المسبق
بذرة، لا قفل — أضف قواعد Agent الثلاث الأخرى أو حرّر الـ regex بحرية
بعد ذلك (انظر §4).اختبره في الـ sandbox
افتح علامة التبويب Test داخل المحرر، الصق عينة، اختر المرحلة
المطابقة، وشغّل السياسة الحالية محلياً — بدون استدعاء للأعلى، بدون
حصة (انظر §3).
اربط مفتاحاً
حرّر مفتاح API واختر
agent-rails من قائمة Guardrail المنسدلة
(يضبط guardrail_id على المفتاح)، أو علّمه افتراضي مساحة العمل.
انظر اربط بمفتاح و
افتراضي الحساب.3. أثبتها قبل أن تربط
أثبت أن القاعدة تُطلق قبل أن يشير إليها أي مفتاح. افتح علامة التبويب Test، اختر مرحلة output، والصق استجابة قد تكون صفحة مسمومة من مهاجم استدرجت النموذج لإصدارها:4. ركّب القواعد واضبطها
الإعدادات المسبقة الأربعة بذور. الحركة الشائعة هي دمجها في حاجز حمايةagent-rails واحد وتشديد كل regex لمكدّسك:
ضع قائمة سماح لروابط URL
ابدأ من URL Filter، ثم حرّر الـ
regex بحيث يحجب كل رابط URL
عدا نطاقاتك المعتمدة — اقلب المطابقة إلى قائمة سماح بدلاً من حجب
شامل.ألّف كواشفك الخاصة
أضف قاعدة
regex لأي شكل
حمولة تهتم به أدواتك — أنماط RE2، زمن خطي، بدون مراجع خلفية. تُجمَّع
الأنماط مرة وتُخزَّن مؤقتاً عبر الطلبات.5. كيف يبدو الحجب
كل إعداد Agent مسبق يستخدم إجراء block. الطلب المحجوب يعيد HTTP 400 مع رمز الخطأguardrail_blocked ورسالة تسمّي حاجز الحماية
والقاعدة التي أُطلقت:
guardrail_blocked.
6. حواجز الحماية محتوى؛ جدار الحماية استدعاءات أدوات
حواجز حماية الوكيل طبقة أولى قوية، لكنها تفكر في السلاسل، لا دلالات الأدوات. تحجب سطر shell في المحتوى — لا تفهم أن النموذج أصدرtool_call مهيكلاً لأداة مدمّرة، أو أن طلباً صادراً متجه إلى IP بيانات
وصفية.
طبقة استدعاء الأداة تلك هي جدار الحماية: يقيّم
tool_calls التي يصدرها النموذج، وtools/call لـ MCP، والخروج الصادر،
بأحكام مثل allow / audit / deny / pending_approval. الاثنان
يتكاملان — حواجز الحماية تفحص النص، وجدار الحماية يحكم الإجراء.
جدار الحماية
احكم استدعاءات الأدوات التي يصدرها النموذج، واستدعاءات MCP، والخروج
بأحكام allow / audit / deny / موافقة.
حواجز الحماية مقابل جدار الحماية
متى تلجأ لحاجز حماية محتوى مقابل جدار حماية استدعاء أداة — وكيف تشغّل
كليهما.
تأمين وكلاء الذكاء الاصطناعي
مجموعة تحكم الوكيل الكاملة: المحتوى، الأدوات، MCP، والخروج.
الاستقلالية المفرطة
التهديد الذي تعالجه هذه الحواجز — وكيل يفعل أكثر مما ينبغي.
7. انظر ما أُطلق
كل قاعدة تُطلق تسجّل مطابقة — نوع القاعدة، الإجراء، المرحلة، وسلسلة تفصيل — تبرز في تغذية Matches لمساحة العمل. السلسلة الفرعية المطابقة نفسها تُسجَّل فقط عند تفعيل Log raw content، وهو مُطفأ افتراضياً. جمّع التغذية وصفّها حسب حاجز الحماية، ونوع القاعدة، والإجراء لمراقبة معدل إصابة قاعدة الوكيل وضبط الإيجابيات الكاذبة. انظر تغذية المطابقات، التسجيل والخصوصية، و ضبط الإيجابيات الكاذبة.8. إلى أين تذهب بعد ذلك
قواعد مرحلة المخرجات
كيف يعمل فحص الاستجابة لـ Markdown Image Block وSQL Injection in
Output.
كواشف regex
ألّف أنماط RE2 خاصة بك لتوسيع قواعد Agent.
تسريب البيانات
قناة التسريب التي يغلقها Markdown Image Block.
استدعاءات الأدوات الخطرة
لماذا لا يكفي حاجز محتوى وحده — اقرنه بجدار الحماية.
