Alles hier ist schreibgeschützt oder gesandboxt — kein nutzersichtbarer Block,
kein Produktions-Traffic betroffen. (Keyword-, Regex- und PII-Regeln laufen
vollständig lokal; eine
llm_judge-Regel ruft trotzdem ihr konfiguriertes
Modell auf, sodass ein Eval über eine Judge-Policy diesen Aufruf doch macht.)
Der Sinn ist, Dinge zu brechen, bevor der Launch erfolgt, zu Ihren
Bedingungen.1. Wie man einen KI-Agenten vor dem Launch red-teamt
Ein Pre-Launch-Red-Team beantwortet drei Fragen, und OrcaRouter hat ein Tool für jede:Fängt mein Guardrail Angriffe?
Den Eval-Harness des Guardrails gegen gebündelte adversariale Korpora
laufen lassen und Precision / Recall / F1 zurücklesen.
Was würde meine Firewall brechen?
Den Shadow-Mode einschalten und beobachten, welche echten Tool-Calls
abgelehnt würden — ohne bereits einen davon abzulehnen.
Ist eine engere Haltung sicher?
Ein Autonomie-Level simulieren, um genau vorzuschauen, was es gegen
Ihren Traffic ändern würde, bevor Sie es anwenden.
2. Ihr Guardrail gegen adversariale Korpora bewerten
Der schnellste Weg zu wissen, ob eine Content-Policy den Kontakt mit einem Angreifer überlebt, ist, ein Korpus bekannter Angriffe darauf zu werfen und die Punktzahl zu lesen. Der Eval-Tab des Guardrail-Editors tut genau das: Er spielt jedes Sample in einem Korpus durch Ihre aktuelle Policy und vergleicht das Verdikt gegen das erwartete Ergebnis jedes Samples — er spielt das Korpus lokal gegen Ihre Regeln ab, niemals gegen Live-Traffic. OrcaRouter liefert gebündelte Red-Team-Korpora, sodass Sie nicht Ihre eigenen beschaffen müssen. Darunter:| Korpus | Was es ist |
|---|---|
advbench_harmful_behaviors | Der kanonische Adversarial-Suffix-Zielsatz — jede Zeile ist ein unsicherer Request, den ein Guardrail blockieren sollte. |
anthropic_hh_redteam | Echte mehrstufige Human-Red-Team-Transkripte gegen einen Assistenten. |
deepset_prompt_injections | Gelabelte Prompt-Injection- vs. harmlose Requests — eine Precision/Recall-Baseline für einen Input-Stage-Block. |
databricks_dolly_benign | Eine reine harmlose Baseline: Eine überstrenge Policy sollte keinen davon blockieren. |
deepset_prompt_injections-Korpus aus:
- TP / FP / FN / TN — wahre/falsche Positive und Negative, wobei ein „False Positive” auch das Fangen eines Angriffs mit der falschen Aktionsklasse umfasst (z. B. Maskieren, wenn Sie einen Block erwarteten).
- Precision / Recall / F1 — die Schlagzeilen-Zahlen. Niedriger Recall bedeutet, Angriffe schlüpfen durch; niedrige Precision bedeutet, Sie blockieren harmlosen Traffic.
Wo die Prompt-Injection-Verteidigung lebt. Das gebündelte Prompt-Injection
Basics-Preset ist eine Keyword-Regel auf der flag-Aktion — sie legt gängige
Jailbreak-Phrasen zur Überprüfung offen, ohne den Nutzer zu blockieren. Für
semantische Injection-Intention, die keine Keyword-Liste einfängt, fügen Sie
eine
llm_judge-Regel hinzu und red-teamen Sie sie auf dieselbe Weise:
Evaluieren Sie sie gegen deepset_prompt_injections und anthropic_hh_redteam
und lesen Sie den F1. Siehe die
Guardrail-Referenz.3. Die Firewall im Shadow-Mode gegen echten Traffic
Ein Guardrail-Eval testet Text gegen ein festes Korpus. Ihre Firewall hingegen muss gegen die chaotische Realität dessen getestet werden, was Ihr Agent tatsächlich tut — und der sicherste Weg, das vor dem Launch zu tun, ist der Shadow-Mode. Der Shadow-Mode ist ein Pro-Policy-Flag, das die Firewall dazu bringt, jeden Tool-Call genau so auszuwerten und zu loggen, wie sie es in Produktion täte, aber jedes durchsetzende Verdikt aufaudit herabzustufen. Ein deny wird zu
einer Audit-Zeile, deren Grund mit [shadow] would … vorangestellt ist. Nichts
wird blockiert. Nichts bricht. Aber der Events-Feed zeigt Ihnen nun die
präzise Liste der Aufrufe, die Ihre Policy abgelehnt hätte.
Das ist das Firewall-Red-Team: Verfassen Sie Ihre strengste beabsichtigte
Policy, schalten Sie den Shadow-Mode ein, führen Sie Ihren Agenten durch eine
realistische Launch-Probe und lesen Sie dann die [shadow] would …-Events.
Die Policy verfassen, dann shadowen
Die Policy verfassen, dann shadowen
Bauen Sie Ihre durchsetzende Policy in der Konsole (Developer+) — für
einen Launch-Dry-Run setzen Sie
default_verdict auf audit und fügen Sie
die Deny-Regeln hinzu, die Sie auszuliefern beabsichtigen. Schalten Sie den
Shadow-Mode ein. Die ganze Policy loggt nun, ohne durchzusetzen.Den Agenten wie am Launch-Tag belasten
Den Agenten wie am Launch-Tag belasten
Führen Sie Ihre echten Agenten-Flows gegen das Gateway mit einem Schlüssel
aus, der an die geshadowte Policy angehängt ist. Jeder Tool-Call — inbound,
response, MCP-Dispatch, egress — wird ausgewertet und geloggt.
Die Would-block-Liste lesen
Die Would-block-Liste lesen
Öffnen Sie Firewall → Events (Developer+) und filtern Sie nach den
[shadow] would …-Gründen. Jeder davon ist ein Aufruf, den Ihre Policy in
Produktion abgelehnt hätte. Bestätigen Sie, dass jeder Eintrag ein Aufruf
ist, den Sie abgelehnt haben wollen — und dass nichts Legitimes auf der
Liste ist.Shadow ausschalten, um live zu gehen
Shadow ausschalten, um live zu gehen
Sobald die Would-block-Liste sauber ist, schalten Sie den Shadow-Mode aus.
Der allernächste matchende Aufruf wird echt durchgesetzt — keine andere
Änderung.
4. Eine engere Haltung simulieren, bevor Sie sich festlegen
Der dritte Red-Team-Schritt ist der billigste: Bevor Sie ein strengeres Autonomie-Level anwenden, simulieren Sie es. Der Simulator schaut vor, was das Anwenden vontight
(oder einem beliebigen Level) gegen den jüngsten Traffic Ihres Workspaces ändern
würde — wie viele Aufrufe auf deny flippen würden — ohne eine einzige
Policy-Zeile zu schreiben.
tight?” vor dem Launch zu beantworten: Wenn die
Vorschau eine Wand von Würde-Ablehnungen auf Aufrufen zeigt, von denen Ihr
Agent abhängt, haben Sie Regeln zu erweichen vor dem Go-live, keinen Vorfall
danach.
Simulate ist nur Vorschau — es mutiert nie Ihre Policies. Ein Autonomie-Level
anzuwenden ist eine separate Developer+-Aktion, und es ist eine Transaktion
mit Ein-Klick-Undo, falls das Live-Ergebnis Sie trotzdem überrascht.
5. Die Pre-Launch-Red-Team-Checkliste
Setzen Sie die drei Durchläufe zusammen, und Sie haben ein Launch-Gate:| Durchlauf | Tool | Grün, wenn |
|---|---|---|
| Content-Policy | Guardrail-Eval vs. Angriffs- + harmlose Korpora | Hoher Recall auf Angriffen, keine Blocks auf harmlosen |
| Aktions-Policy | Firewall-Shadow-Mode vs. Proben-Traffic | Jedes [shadow] would … ist beabsichtigt |
| Abdeckung | Observe-Mode + Discovered tools | Kein überraschendes Tool sitzt in einer Abdeckungslücke |
| Haltung | Das Ziel-Autonomie-Level simulieren | Vorschau entspricht dem, was Sie erwarten |
https://api.orcarouter.ai/v1/... exakt wie zuvor auf.
6. Nächste Schritte
Enforcement-Modi
Observe → shadow → enforce, das sichere Ausrollen, das dieses Rezept probt.
Die Secure-Agents-Baseline
Was jedes Autonomie-Level setzt — und wie
simulate es vorschaut.Prompt-Injection
Die Bedrohung, gegen die Ihr Guardrail-Eval bewertet.
Go-live
Der Produktions-Cutover, nachdem das Red-Team besteht.
