https://api.orcarouter.ai/v1/... auf; nur die
Schlüssel und Policies im Gateway ändern sich. Für die zugrunde liegende
Angriffsanatomie lesen Sie
Prompt-Injection und
Gefährliche Tool-Calls; diese
Seite ist die Antwort.
Die Rollen, die jeder Schritt braucht, sind inline genannt. Das Lesen des
Guardrail-Matches-Feeds ist für jedes Mitglied offen; die
Firewall-Events-, Runs- und Trace-Ansichten brauchen Developer+;
einen Schlüssel zu widerrufen, eine Autonomie-Haltung anzuwenden und eine
Policy zu bearbeiten brauchen Developer+; einen Guardrail-Match als False
Positive zu markieren braucht Admin.
1. Die Incident-Response-Schleife für KI-Sicherheit
Drei Phasen, der Reihe nach ausgeführt. Springen Sie nicht direkt zum Härten — eindämmen zuerst, sodass der Angreifer den Zugang verliert, während Sie ermitteln.Eindämmen
Den kompromittierten Schlüssel widerrufen, sodass der Angreifer keinen
weiteren Aufruf machen kann. Einen frischen, eng eingegrenzten Ersatz prägen.
Erfassen
Die Firewall-Events / Runs- und Guardrail-Matches-Feeds lesen, um
genau zu sehen, was der Schlüssel tat und was feuerte.
Härten
Die Autonomie-Haltung verschärfen und die Regel hinzufügen, die es gefangen
hätte, sodass derselbe Angriff nicht wiederkehren kann.
2. Eindämmen — den Schlüssel widerrufen
Der erste Schritt ist, den Zugang abzuschneiden. Ein geleaktersk-orca-...-Schlüssel funktioniert weiter, bis Sie ihn widerrufen, tun Sie
das also vor allem anderen.
Öffnen Sie in der Konsole API Keys, finden Sie den kompromittierten
Schlüssel (er ist bei der Anzeige maskiert — matchen Sie ihn nach Name,
Umgebung oder zuletzt verwendet) und löschen Sie ihn (Rolle Developer).
Die Löschung ist sofort: Der allernächste Request auf diesem Schlüssel wird am
Gateway abgelehnt.
Prägen Sie dann einen Ersatz, eingegrenzt auf das Minimum, das die Last braucht
— niemals Ihren kontoweiten Schlüssel. In API Keys → Neuer Schlüssel (Rolle
Developer):
Den Blast-Radius auf dem neuen Schlüssel begrenzen
Den Blast-Radius auf dem neuen Schlüssel begrenzen
Setzen Sie
credit_limit_usd auf eine vernünftige Obergrenze (0 =
unbegrenzt), sodass ein künftiger Leak kein Kontingent abschöpfen kann,
allow_ips auf die Egress-IPs Ihres Backends, wenn der Aufrufer von einem
festen Server läuft, und expired_time für alles Temporäre (-1 = läuft
nie ab). Verwenden Sie model_limits (mit model_limits_enabled), um den
Schlüssel auf nur die Modelle einzuzäunen, die er braucht.Ihre Policies an den neuen Schlüssel anhängen
Ihre Policies an den neuen Schlüssel anhängen
Wählen Sie Ihr gehärtetes Guardrail aus dem Guardrail-Dropdown (setzt
guardrail_id) und Ihre Firewall-Policy aus dem Firewall policy-Dropdown
(setzt firewall_policy_id). Beide Bindungen leben am Schlüssel im Gateway,
sodass der neue Schlüssel von seinem ersten Aufruf an gesteuert ist.
Kopieren Sie den Klartext einmal — er ist nach der Erstellung überall
maskiert.3. Erfassen — die Events- und Matches-Feeds lesen
Finden Sie nun heraus, was der Schlüssel tatsächlich tat. Das Gateway hat bereits jeden Tool-Call und jede Regel, die feuerte, aufgezeichnet — workspace-bezogen, ohne zusätzliche Instrumentierung.| Feed | Wo | Rolle | Was er beantwortet |
|---|---|---|---|
| Firewall → Events | pro Tool-Call | Developer+ | Jede Auswertung — Verdikt, Surface, Tool, Args, der Run, zu dem er gehört. |
| Firewall → Runs | aufgerollt | Developer+ | „Was hat diese Agenten-Session tatsächlich getan” — Verdikt-Mix, distinkte Tools und Modelle. |
| Guardrails → Matches | pro Regel-Treffer | Member | Jede Guardrail-Regel, die feuerte — Typ, Aktion, Stage, Detail. |
deny und audit, um zu sehen, was
blockiert wurde versus was unter einer reinen Observe-Haltung durchschlüpfte.
Gleichen Sie Guardrails → Matches für dasselbe Fenster ab. Wenn eine
Prompt-Injection Basics-Regel den Request flaggte — Phrasen wie
„ignore previous instructions” oder „reveal your system prompt” — landet er
hier mit dem Regeltyp und der Stage.
Der Matches-Feed zeichnet den gematchten Teilstring nur auf, wenn Log raw
content für dieses Guardrail an ist — er ist per Default aus (die
datenschutzkonservative Haltung). Mit ihm aus sehen Sie trotzdem, dass eine
Regel feuerte, und ihren Detail-Meta-String, nur nicht den wörtlichen Text.
Schalten Sie ihn pro Guardrail ein, wenn Sie den Teilstring für Triage
brauchen; die Einstellung ist nicht rückwirkend.
POST /api/guardrail/match/:id/mark-fp, Admin), sodass er Ihr Signal nicht
mehr verzerrt, während Sie tunen.
4. Härten — die Lücke schließen
Eindämmung stoppt diesen Angreifer; Härten stoppt den nächsten. Zwei Schritte: die Workspace-Haltung sofort verschärfen, dann die spezifische Regel hinzufügen, die gefangen hätte, was Sie gerade sahen.Schneller Weg — das Autonomie-Level anheben
Wenn der Vorfall einen Agenten aufdeckte, der zu offen lief, flippen Sie die ganze Workspace-Haltung in einer Transaktion. Wenden Sie in Firewall → Posture dastight-Autonomie-Level
an (Rolle Developer). In einem Schritt setzt das Default-Deny, lehnt
destruktive Shell ab, lehnt die fetch-förmigen SSRF-Tool-Namen ab und setzt die
PII Shield- und Secrets & API-Key Blocker-Guardrails durch. Jede
Änderung ist eine Transaktion mit Ein-Klick-Undo aus dem Audit-Snapshot,
sodass Sie direkt zurückrollen können, wenn es zu streng ist.
Präziser Weg — die Regel hinzufügen, die es gefangen hätte
Speziell für Prompt-Injection liefert OrcaRouter ein Prompt-Injection Basics-Preset (Kategorie safety) — eine Keyword-Regel, die gängige Injection-Phrasen zur Überprüfung flaggt, ohne den Nutzer zu blockieren. Starten Sie dort, um Signal zu bekommen, dann eskalieren Sie. Sein strengeres Geschwister, der Jailbreak / Role-Play Blocker, blockiert dieselbe Klasse mit einem Regex. Wenden Sie in Guardrails → Neues Guardrail (Rolle Developer; die Test-Sandbox führt Kandidatenregeln inline aus —llm_judge macht einen
kostenpflichtigen Modellaufruf — sie ist also auch Developer+) das
Prompt-Injection Basics-Preset an, fügen Sie dann eine llm_judge-Regel
hinzu, um die verschleierten Injections zu fangen, die eine Keyword-Liste
verpasst:
judge_fail_open: false, um einen Judge-Fehler oder Timeout als Block zu
behandeln, wenn eine verpasste Prüfung inakzeptabel ist. Beweisen Sie die ganze
Policy im Test-Tab und gegen ein Eval-Korpus, bevor Sie sie an einen
Schlüssel anhängen.
Die neue Regel sicher ausrollen
Setzen Sie eine frische Regel nicht blind auf Live-Traffic durch. Für die Firewall setzen Sieshadow_mode: true auf der Policy — jedes durchsetzende
Verdikt wird auf audit herabgestuft und als [shadow] would … geloggt, sodass
Sie es auf dem Events-Feed feuern sehen, bevor es irgendeinen Traffic
ändert. Für Guardrails setzen Sie die Aktion einer neuen Regel zuerst auf
flag, beobachten den Matches-Feed und promoten sie dann auf block
oder mask. Siehe Enforcement-Modi
für den vollständigen Observe → shadow → enforce-Pfad.
5. Den Fix verifizieren
Bestätigen Sie, dass die Schleife geschlossen ist, bevor Sie es als gelöst bezeichnen.Den Angriff in der Sandbox erneut abspielen
Fügen Sie den bösartigen Prompt in den Guardrail-Test-Tab auf der
input-Stage ein und bestätigen Sie, dass das Verdikt nun ein Block (oder
Flag) ist. Für einen Tool-Call-Vorfall dry-runnen Sie den schuldigen Aufruf
in Firewall → Test (Developer+) und bestätigen Sie, dass das Verdikt
deny ist. Keine der Sandboxes sendet etwas upstream oder persistiert
etwas.Bestätigen, dass der alte Schlüssel tot ist
Senden Sie einen Request auf dem widerrufenen Schlüssel und bestätigen Sie,
dass er abgelehnt wird. Ein blockiertes Guardrail gibt HTTP 400
guardrail_blocked zurück; ein abgelehnter Tool-Call gibt HTTP 400
firewall_blocked zurück — und ein Block kostet kein Kontingent
(Input-Stage-Blocks feuern vor dem Metering; Output-Blocks erstatten das
vorab verbrauchte Kontingent) und ist als skip-retry markiert.Die Timeline snapshotten
Jede Guardrail-Änderung schreibt eine Versionsverlaufszeile, die Sie
diffen und reverten können. Firewall-Änderungen werden im
Audit-Trail erfasst, und ein Autonomie-Level-Apply trägt einen
Ein-Klick-Undo-Snapshot. Zusammen mit dem Workspace-Audit-Log ist das Ihr
Vorfall-Datensatz — wer was wann änderte und welche Haltung vorher und
nachher war.
6. Runbook auf einen Blick
| Phase | Aktion | Wo | Rolle |
|---|---|---|---|
| Eindämmen | Den geleakten Schlüssel löschen | API Keys | Developer+ |
| Eindämmen | Einen eingegrenzten Ersatz prägen | API Keys → Neuer Schlüssel | Developer+ |
| Erfassen | Tool-Calls + Verdikte lesen | Firewall → Events / Runs | Developer+ |
| Erfassen | Regeln lesen, die feuerten | Guardrails → Matches | Member |
| Härten | Die Haltung anheben | Firewall → Posture (tight) | Developer+ |
| Härten | Die fangende Regel hinzufügen | Guardrails / Firewall | Developer+ |
| Verifizieren | In der Sandbox erneut abspielen | Test-Tabs | Developer+ |
7. Wohin als Nächstes
Go-live-Checkliste
Der Pre-Production-Härtungs-Durchlauf — Schlüssel eingrenzen und Haltung
festziehen, bevor Sie ausliefern.
Prompt-Injection
Der Angriff, auf den dieses Runbook antwortet, Ende zu Ende.
Enforcement-Modi
Observe → shadow → enforce — eine neue Regel ausrollen, ohne den Traffic zu
brechen.
Exfiltration stoppen
Ausgehende Ziele eingrenzen, wenn der Vorfall das Netzwerk berührte.
