Konzept-Glossar - OrcaRouter

KI-Agenten-Sicherheits-Glossar

Ein Schnellreferenz-Index aller Begriffe aus der Zero-Trust-Dokumentation. Jede Definition ist auf das beschränkt, was Sie als Entwickler auf dem gehosteten Gateway beobachten und konfigurieren können. Begriffe verlinken zu ihren Heimatseiten für vollständige Details.

Identität & Scope

Begriff	Definition
Workspace	Die oberste Tenant-Grenze. Alle Schlüssel, Guardrails, Firewall-Policies und Audit-Events gehören zu einem Workspace; nichts überschreitet Tenant-Grenzen. Siehe Scope, Keys & Policies.
API-Key (Scoped Key)	Ein Bearer-Token, den Ihr Agent bei jedem Aufruf präsentiert. Trägt seine eigene Modell-Allowlist, IP-Einschränkungen, Ausgabenlimit, Ablauf und die exakte Guardrail + Firewall-Policy, die für ihn gilt. Siehe Scope, Keys & Policies.
`model_limits`	Der Satz von Modellen (oder Modell-Globs), die ein Schlüssel aufrufen darf. Requests für ein Modell außerhalb der Liste werden vor jedem Upstream-Aufruf abgelehnt.
`allow_ips`	Eine IP- oder CIDR-Allowlist am Schlüssel. Requests von einer Adresse außerhalb der Liste werden bei der Authentifizierung abgelehnt.
`credit_limit_usd` (Ausgabenlimit)	Ein hartes Ausgabenlimit am Schlüssel, in USD. Sobald die akkumulierte Nutzung des Schlüssels das Limit erreicht, werden weitere Requests abgelehnt. Nützlich zur Begrenzung unkontrollierter Agenten-Schleifen.
Environment-Tag	Ein Freitext-Label (z. B. `production`, `staging`) an einem Schlüssel, um ihn nach Deployment-Umgebung zu organisieren und zu identifizieren.
`is_firewall_gateway`	Ein Flag, das einen Schlüssel für die Firewall-Gateway-Routen (`/api/v1/firewall/*`) scopet — die MCP-Dispatch- und Evaluate-Hook-Endpunkte. Ein regulärer Schlüssel bekommt `403` auf diesen Routen.
Minimaler Handlungsspielraum	Das Prinzip, einem Agenten nur die Modelle, Ausgaben, IPs und Policies zu geben, die er tatsächlich benötigt — nicht mehr. Implementiert durch Kombination von `model_limits`, `allow_ips`, `credit_limit_usd` und einer restriktiven Firewall-Policy auf demselben Schlüssel. Siehe Scope, Keys & Policies.

Guardrails

Begriff	Definition
Guardrail	Eine benannte, workspace-bezogene Content-Policy — eine geordnete Liste von Regeln, die das Gateway gegen Request-Input und Modell-Output ausführt. Einmal an einen Schlüssel binden (oder als Workspace-Default setzen); jeder gebundene Aufruf wird ohne Redeploy geprüft.
Regel	Eine Prüfung innerhalb eines Guardrails: ein Typ (was zu erkennen), eine Stage (wo zu suchen) und eine Aktion (was zu tun). Regeln laufen der Reihe nach.
Stage	`input` (der Request des Aufrufers), `output` (die Antwort des Modells) oder `both`. Eine Regel löst nur bei ihrer deklarierten Stage aus.
Aktion	`block` — den gesamten Request ablehnen (HTTP 400); `mask` — den Treffer redigieren und den Aufruf durchlassen; `flag` — nur loggen, kein Traffic-Eingriff.
`guardrail_blocked`	Der Fehlercode, der zurückgegeben wird, wenn eine Guardrail-Regel eine `block`-Aktion auslöst. Gibt HTTP 400 zurück. Der Request kostet kein Kontingent — Input-Stage-Blocks feuern vor der Messung; Output-Stage-Blocks erstatten vorab verbrauchtes Kontingent zurück.
PII-Shield	Eine `pii`-Typregel, die eingebaute sensible Entity-Typen erkennt (E-Mail, Telefon, SSN, Kreditkarte, IP und mehr) und sie mit typisierten Tags maskiert. (Der `pii`-Regeltyp unterstützt auch per-Entity-`block`, wenn Sie eigene verfassen.) Der kanonische Ausgangspunkt für Data-Loss-Prevention. Secrets und Credentials werden durch das separate Secrets-Blocker-Preset abgedeckt.
Prompt-Injection-Guardrail	Eine Sicherheitsregel, die Versuche erkennt, durch nicht vertrauenswürdige Inhalte (Webseiten, Tool-Ergebnisse) die Anweisungen des Agenten zu kapern. Wird als Prompt-Injection-Basics-Preset in der Safety-Template-Kategorie geliefert.
Sensible-Wort-Filter	Eine `keyword`-Typregel, die eine Liste literaler Begriffe ohne Beachtung der Groß-/Kleinschreibung matcht. Die einfachste Denylist.
LLM-Judge	Eine `llm_judge`-Typregel, die eine semantische Prüfung (Toxizität, Off-Topic, Jailbreak-Absicht) gegen ein Modell in Ihrem Workspace durchführt. Für vage Policies verwenden, die kein Regex erfassen kann. Tokens werden als Judge-Sub-Zeile abgerechnet.
Kontextuelles Grounding	Eine `grounding`-Typregel, die die Antwort des Modells gegen die RAG-Quellen auf dem Request bewertet und Antworten markiert oder blockiert, die ihnen nicht treu sind.
Log raw content	Ein per-Guardrail-Toggle — standardmäßig aus (datenschutzkonservativ). Wenn aus, zeichnet der Matches-Feed auf, dass eine Regel ausgelöst hat, aber nicht den gematchten Teilstring. Pro Guardrail einschalten, wenn Sie den tatsächlichen String zur Triage benötigen.
Matches-Feed	Der workspace-weite Datensatz jeder ausgelösten Regel: Regeltyp, Aktion, Stage, Detail-String und (wenn Log raw content an ist) der gematchte Teilstring. Nach Guardrail, Regeltyp und Aktion filterbar.

Agent-Firewall

Begriff	Definition
Firewall-Policy	Ein benannter, workspace-bezogener Satz geordneter Regeln, den das Gateway bei jedem Tool-Call auswertet. Einmal an einen Schlüssel binden oder als Workspace-Default setzen; keine Agenten-Code-Änderung erforderlich.
Verdikt	Das Ergebnis, das eine Regel (oder der Default) für einen Tool-Call erzeugt. Eines von `allow`, `audit`, `deny`, `sanitize`, `pending_approval` oder `cap_cost`.
Standard-Verdikt	Das Verdikt, das angewendet wird, wenn keine Regel in der Policy auf den Tool-Call matcht. Standardmäßig `audit` — alles erlauben und aufzeichnen — bis Sie bereit sind durchzusetzen.
Durchsetzungs-Surface	Der Punkt im Request-Lebenszyklus, an dem die Firewall einen Aufruf sieht: `inbound` (Tool-Definitionen, die der Agent anbietet), `response` (Tool-Calls, die das Modell ausgibt), `mcp` (ein `tools/call` durch das MCP-Gateway) oder `egress` (ein ausgehendes Ziel, das von einem Tool gemeldet wird). Siehe Firewall.
Tool-Allowlist (Glob)	Ein `tool_name_glob` auf einer Regel — eine kleine case-sensitive Grammatik (`shell.`, `.exec`, `*`), die einen Tool-Namen oder eine Familie matcht. First-Match-Wins gegen die geordnete Regelliste.
Argument-Validierung	`args_match`-Klauseln auf einer Regel — `eq`, `contains`, `regex`, `in`, `cidr_match`, `gt`, `lt`-Operatoren über JSONPath-Felder in den Tool-Argumenten. Der Unterschied zwischen „`shell.exec` blockieren” und „`shell.exec` nur blockieren, wenn der Befehl `rm -rf` ist.”
Sanitize	Ein `sanitize`-Verdikt, das gematchte Teilstrings (Secrets, PII) aus Tool-Argumenten redigiert und den bereinigten Aufruf weiterleitet, anstatt die gesamte Aktion zu blockieren. Eskaliert zu einem Block auf der `inbound`-Surface.
Egress-Kontrolle	Eine `egress`-Surface-Regel mit einer Host/CIDR-Allow- oder -Deny-Liste — die primäre Verteidigung gegen SSRF und Datenexfiltration. Das `tight`-Autonomie-Level verweigert auch die üblichen fetch-förmigen Tools (`http_fetch`, `fetch_url`, `web_search`, `request`).
`cap_cost`	Ein Verdikt, das Tool-Calls verweigert, sobald die akkumulierten Ausgaben des Agentenlaufs (in Cent) eine pro-Regel-Obergrenze überschreiten. Ein Schutzschalter für unkontrollierte Agenten-Schleifen; als Regel verfasst und löst sich je nach akkumulierten Ausgaben zu allow oder deny auf.
Sequenzregel	Eine Regel mit einem `sequence`-Block, die eine geordnete mehrstufige Kette von Tool-Calls innerhalb eines Zeitfensters matcht (z. B. Bulk-Read → Export → Egress). Reaktiv durch einen asynchronen Matcher durchgesetzt; erscheint im Events-Feed.
`firewall_blocked`	Der Fehlercode bei einem verweigerten Tool-Call. Gibt HTTP 400 auf `inbound` zurück; ein Tool-Fehler auf `mcp`. Als skip-retry markiert.
Freigabe / HITL (`pending_approval`)	Ein `pending_approval`-Verdikt hält einen Tool-Call für menschliche Überprüfung zurück. Der Agent erhält eine „held”-Antwort mit einer Approval-ID, ein Prüfer genehmigt oder lehnt out-of-band ab, und der Agent reicht mit einem einmal nutzbaren Approval-Token erneut ein. Der HTTP-Fehlercode während des Holds ist `firewall_approval_pending`.
Anomalieerkennung	Statistische Ebene über statischen Regeln. Bewertet per-Tool-Aktivität gegen eine 14-Tage-Hour-of-Week-Baseline und markiert Spikes, Retry-Schleifen und neuartige Tool-Übergangspfade auf einem überprüfbaren Feed.

Haltungen

Begriff	Definition
Observe-Mode	Eine Workspace-Level-Einstellung. Wenn an und keine Policy an einen Schlüssel gebunden ist, werden Tool-Calls erlaubt, aber als Abdeckungslücken geloggt, was die Discovered-Tools-Ansicht befüllt.
Shadow-Mode	Ein Flag auf einer Policy. Die Policy wertet aus und loggt exakt wie in Produktion, aber jedes durchsetzende Verdikt wird auf `audit` herabgestuft (Grund vorangestellt `[shadow] would …`). Sicherer Rollout-Schalter.
Enforce	Der Standardzustand, wenn Shadow-Mode aus ist und eine Policy angehängt ist. Verdikte treten in Kraft — `deny` blockiert, `sanitize` redigiert, `pending_approval` hält zurück.
Autonomie-Level	Ein einzelner Schalter (`tight` / `balanced` / `permissive`), der die Firewall- und Guardrails-Haltung des Workspaces atomar in einer Transaktion mit Ein-Klick-Undo ersetzt. Siehe Enforcement-Modi und Secure-Agents-Baseline.

MCP & Skills

Begriff	Definition
MCP-Server	Ein Model-Context-Protocol-Server, der in Ihrem Workspace registriert und durch das Firewall-MCP-Gateway (`api.orcarouter.ai/api/v1/firewall/mcp`) exponiert wird. Jedes `tools/call`, das er erhält, wird inline ausgewertet. Siehe Firewall-MCP.
`tools/call`	Die MCP-Protokollnachricht, die ein Tool an einen MCP-Server dispatcht. Die Firewall wertet es auf der `mcp`-Surface aus, bevor es weitergeleitet wird.
Rug-Pull	Ein Supply-Chain-Risiko, bei dem ein MCP-Server oder eine installierte Fähigkeit nach Gewährung des Zugangs seine Tool-Definitionen ändert oder erweitert. OrcaRouter steuert den Schadensradius: jeder MCP-`tools/call` wird auf der `mcp`-Surface gegen Ihre Regeln firewall-ausgewertet, und ein Skill, der als riskant eingestuft wird, wird in `quarantine` gehalten, bis ein Mensch ihn überprüft.
Skill	Ein Fähigkeits-Bundle (ein oder mehrere Tools von einem oder mehreren MCP-Servern), das das Gateway bei der Registrierung auf Risiken scannt. Jeder Skill erhält ein Risikoband und einen Enforcement-Mode (`allow`, `quarantine`, `block`), der auf Policy-Level-Verdikte aufgesattelt wird.

Compliance & Daten

Begriff	Definition
Compliance-Pack	Ein vorgefertigtes Guardrail + Firewall-Policy-Bundle für ein regulatorisches Profil (GDPR, PCI, HIPAA, Finanzdaten). Einmalig aus der Template-Bibliothek anwenden; Regeln sind nach Anwendung editierbar.
Signierter Compliance-Report	Ein workspace-weiter Attestierungsreport, signiert mit Ed25519. Die Signatur ist öffentlich verifizierbar — jeder mit dem öffentlichen Schlüssel kann bestätigen, dass der Report nicht manipuliert wurde.
Datenresidenz	Die für Ihre Compliance-Nachweise aufgezeichnete Region. Signierte Compliance-Reports werden nach Region gestempelt und gespeichert (`us`, `eu`, `uk`, `ap`, `cn`, `global`), und ein Report wird nur unter einer passenden deklarierten Region bedient. In den Compliance-Einstellungen setzen.
Recht auf Löschung	Bei einer Workspace-Löschung oder einem expliziten Löschantrag gewährt OrcaRouter ein 30-Tage-Gnadenfenster und bereinigt dann PII aus Logs und Audit-Datensätzen für diesen Workspace.
Audit-Event	Ein unveränderlicher Datensatz, der nach jedem Erstellen, Aktualisieren, Löschen und jeder Durchsetzungsentscheidung geschrieben wird — Policy-Änderungen, Regelbearbeitungen, Freigabe-Auflösungen, Guardrail-Speicherungen. Secret-Werte und Regel-Blobs werden nie ins Audit-Log geschrieben.

Bedrohungen (Ein-Zeiler)

Bedrohung	Was es ist
Prompt-Injection	Ein Angreifer bettet Anweisungen in Inhalte ein, die der Agent aufnimmt (direkt: in der Benutzernachricht; indirekt: in einer Webseite, einem Dokument oder einem Tool-Ergebnis), um das Verhalten des Agenten zu kapern.
Jailbreak	Ein crafted Prompt, der versucht, das Safety-Training eines Modells zu umgehen, typischerweise durch Framing des Requests als Rollenspiel, Hypothetisch oder System-Override.
Übermäßige Handlungsmacht / Confused Deputy	Ein Agent, der mit mehr Berechtigungen ausgestattet wurde, als seine Aufgabe erfordert, was ihn durch injizierte Anweisungen trivial ausnutzbar macht — die wichtigste Mitigierung ist minimaler Handlungsspielraum.
Datenexfiltration	Ein Agent (oder eine injizierte Anweisung), der Tool-Calls oder ausgehende Requests steuert, um sensible Daten an einen vom Angreifer kontrollierten Endpunkt zu leaken. Durch Egress-Kontrollregeln gemindert.
Denial-of-Wallet	Ein unkontrollierter oder adversarisch ausgelöster Agent, der unbegrenzte Upstream-Modell-Ausgaben generiert. Durch `credit_limit_usd` am Schlüssel und `cap_cost`-Regeln in der Firewall-Policy gemindert.

Das vollständige Bild, wie diese Kontrollen zusammenwirken, finden Sie unter KI-Agenten mit OrcaRouter absichern.

​KI-Agenten-Sicherheits-Glossar

​Identität & Scope

​Guardrails

​Agent-Firewall

​Haltungen

​MCP & Skills

​Compliance & Daten

​Bedrohungen (Ein-Zeiler)