rm -rf /, das das
Modell in ein Shell-Tool echot, ein UNION SELECT, das es für einen
SQL-Runner zur Ausführung ausgibt. Eine Content-Policy, die nur an PII oder
Secrets denkt, übersieht alle vier. Die Preset-Kategorie Agent existiert
genau für diese Form — deterministische regex-Regeln, die den Request oder
die Response blockieren (block), bevor ein nachgelagertes Tool darauf
reagiert.
Dies ist eine fokussierte Landing-Page für den agentischen Anwendungsfall.
Für die vollständige Guardrail-Engine — jeder Regeltyp, jedes Feld, jede
Stage und jede Route — siehe die
Guardrails-Referenz.
1. Warum Agent-Guardrails eine eigene Oberfläche sind
Ein Guardrail prüft Inhalt — den Text in der Anfrage und den Text in der Antwort. Für einen Agenten wird dieser Text zu einer Aktion: die URL wird abgerufen, das Markdown wird gerendert, die Shell-Zeile wird ausgeführt, das SQL wird ausgeführt. Dieselbeblock / mask-Engine, die Sie für PII
verwenden, leistet hier also doppelte Arbeit — sie stoppt eine Payload am
Gateway, bevor die Tool-Schicht des Agenten sie in einen Nebeneffekt
verwandeln kann.
Die Kategorie Agent liefert vier Presets, jedes eine regex-Regel mit
der Action block, verteilt über die beiden Stages:
URL Filter — input, block
URL Filter — input, block
Blockiert jede
http(s)-URL im Request. Verwenden Sie ihn für
Agent-Flows, bei denen ausgehende URLs auf einer Allowlist stehen müssen
statt offen zu sein. Das mitgelieferte Muster matcht jede URL; bearbeiten
Sie die Regex, um bestimmte Domains zuzulassen.Markdown Image Block — output, block
Markdown Image Block — output, block
Blockiert eingebettete Markdown-Bilder (
) in der Response
des Modells. Verteidigt gegen Image-Rendering-Exfiltration auf Clients,
die entfernte Bilder automatisch laden — ein klassischer
Datenleck-Kanal, bei dem eine gerenderte Bild-URL Daten herausschmuggelt.Tool Call Shell Block — input, block
Tool Call Shell Block — input, block
Blockiert offensichtliche Shell-Injection-Muster im Request (
rm -rf /, curl … | sh, wget … | bash, sudo-Eskalation). Verwenden Sie ihn
für Agent-Flows, die Benutzereingaben an ein Shell-Tool weiterleiten
können.SQL Injection in Output — output, block
SQL Injection in Output — output, block
Blockiert Modell-Responses, die klassische SQL-Injection-Payloads
tragen (
UNION SELECT, OR 1=1, DROP TABLE, Kommentar-Terminatoren).
Defense-in-Depth für Tools, die vom Modell erzeugtes SQL automatisch
ausführen.Zwei Presets prüfen Input, zwei prüfen Output. URL Filter und Tool Call
Shell Block feuern auf dem Request — bevor das Modell läuft, bevor
Kontingent gemessen wird. Markdown Image Block und SQL Injection in Output
feuern auf der Response — nachdem das Modell geantwortet hat, bevor der
Inhalt Ihren Client oder dessen Tool-Schicht erreicht. Zu wissen, auf welcher
Stage ein Risiko lebt, ist das ganze Spiel; siehe
Input-Stage und
Output-Stage.
2. Ein Agent-Guardrail in der Konsole anwenden
Jeder Schritt hier ist eine Konsolen-Aktion auf dem gehosteten Gateway unter Ihrer eigenen Session. Das Erstellen und Bearbeiten von Guardrails erfordert Developer+ im Workspace. Nur der finale/v1/*-Aufruf
verwendet einen sk-orca-...-Relay-Key — das Guardrail selbst wird
vollständig in der Konsole konfiguriert.
Template öffnen
Öffnen Sie in der Konsole Guardrails, klicken Sie auf den
New guardrail-Splitbutton und wählen Sie ein Preset aus der
Template-Kategorie Agent — z. B. Markdown Image Block. Es legt
die einzelne
regex-Block-Regel auf der richtigen Stage an.Benennen und speichern
Geben Sie ihm einen Namen (≤ 64 Zeichen), z. B.
agent-rails, und
speichern. Ein Preset ist ein Keim, keine Sperre — fügen Sie die anderen
drei Agent-Regeln hinzu oder bearbeiten Sie die Regex anschließend frei
(siehe §4).Im Sandbox testen
Öffnen Sie den Tab Test im Editor, fügen Sie ein Sample ein, wählen
Sie die passende Stage und führen Sie die aktuelle Policy lokal aus —
kein Upstream-Aufruf, kein Kontingent (siehe
§3).
Einen Key anhängen
Bearbeiten Sie einen API-Key und wählen Sie
agent-rails aus dem
Dropdown Guardrail (setzt guardrail_id auf dem Key), oder markieren
Sie es als Workspace-Default. Siehe
Einen Key anhängen und
Account-Default.3. Beweisen Sie es, bevor Sie anhängen
Beweisen Sie, dass die Regel feuert, bevor irgendein Key auf sie zeigt. Öffnen Sie den Tab Test, wählen Sie die output-Stage und fügen Sie eine Antwort ein, die eine von einem Angreifer vergiftete Seite das Modell zur Ausgabe verleitet haben könnte:4. Die Regeln zusammensetzen und tunen
Die vier Presets sind Keime. Der übliche Schritt ist, sie in ein einzigesagent-rails-Guardrail zu kombinieren und jede Regex auf Ihren Stack zu
verschärfen:
URLs auf Allowlist setzen
Starten Sie von URL Filter und bearbeiten Sie dann die
regex, sodass
sie jede URL außer Ihren genehmigten Domains blockiert — kehren Sie den
Match zu einer Allowlist um statt einer pauschalen Blockade.Eigene Detektoren verfassen
Fügen Sie eine
regex-Regel
für jede Payload-Form hinzu, die Ihre Tools betrifft — RE2-Muster, lineare
Zeit, keine Backreferences. Muster werden einmal kompiliert und über
Requests hinweg gecacht.5. Wie ein Block aussieht
Jedes Agent-Preset verwendet die block-Action. Ein blockierter Request gibt HTTP 400 mit dem Fehlercodeguardrail_blocked und einer Nachricht
zurück, die das Guardrail und die ausgelöste Regel benennt:
guardrail_blocked-Fehler.
6. Guardrails sind Inhalt; die Firewall sind Tool-Calls
Agent-Guardrails sind eine starke erste Schicht, aber sie schließen über Strings, nicht über Tool-Semantik. Sie blockieren eine Shell-Zeile im Inhalt — sie verstehen nicht, dass das Modell einen strukturiertentool_call an ein destruktives Tool ausgegeben hat, oder dass eine
ausgehende Anfrage auf eine Metadaten-IP zusteuert.
Diese Tool-Call-Schicht ist die Firewall: Sie
evaluiert die vom Modell ausgegebenen tool_calls, MCP-tools/call und
ausgehenden Egress mit Verdikten wie allow / audit / deny /
pending_approval. Die beiden setzen sich zusammen — Guardrails prüfen den
Text, die Firewall steuert die Aktion.
Firewall
Steuern Sie die vom Modell ausgegebenen Tool-Calls, MCP-Calls und Egress
mit allow / audit / deny / approval-Verdikten.
Guardrails vs. Firewall
Wann Sie zu einem Content-Guardrail vs. einer Tool-Call-Firewall greifen
— und wie Sie beide betreiben.
KI-Agenten absichern
Der vollständige Agent-Control-Stack: Inhalt, Tools, MCP und Egress.
Übermäßiger Handlungsspielraum
Die Bedrohung, die diese Rails adressieren — ein Agent, der mehr tut, als
er sollte.
7. Sehen, was gefeuert hat
Jede Regel, die feuert, zeichnet einen Match auf — Regeltyp, Action, Stage und einen Detail-String — angezeigt im workspace-weiten Feed Matches. Der gematchte Teilstring selbst wird nur dann aufgezeichnet, wenn Log raw content eingeschaltet ist, was standardmäßig aus ist. Gruppieren und filtern Sie den Feed nach Guardrail, Regeltyp und Action, um Ihre Agent-Regel-Trefferquote zu beobachten und Fehlalarme zu tunen. Siehe Matches-Feed, Logging & Datenschutz und Fehlalarme tunen.8. Wie es weitergeht
Output-Stage-Regeln
Wie die Response-Prüfung für Markdown Image Block und SQL Injection in
Output funktioniert.
Regex-Detektoren
Verfassen Sie Ihre eigenen RE2-Muster, um die Agent-Regeln zu erweitern.
Datenexfiltration
Der Exfiltrations-Kanal, den Markdown Image Block schließt.
Gefährliche Tool-Calls
Warum ein Content-Rail allein nicht genügt — paaren Sie es mit der
Firewall.
