KI-Agenten-Sicherheits-Glossar
Ein Schnellreferenz-Index aller Begriffe aus der Zero-Trust-Dokumentation. Jede Definition ist auf das beschränkt, was Sie als Entwickler auf dem gehosteten Gateway beobachten und konfigurieren können. Begriffe verlinken zu ihren Heimatseiten für vollständige Details.Identität & Scope
| Begriff | Definition |
|---|---|
| Workspace | Die oberste Tenant-Grenze. Alle Schlüssel, Guardrails, Firewall-Policies und Audit-Events gehören zu einem Workspace; nichts überschreitet Tenant-Grenzen. Siehe Scope, Keys & Policies. |
| API-Key (Scoped Key) | Ein Bearer-Token, den Ihr Agent bei jedem Aufruf präsentiert. Trägt seine eigene Modell-Allowlist, IP-Einschränkungen, Ausgabenlimit, Ablauf und die exakte Guardrail + Firewall-Policy, die für ihn gilt. Siehe Scope, Keys & Policies. |
model_limits | Der Satz von Modellen (oder Modell-Globs), die ein Schlüssel aufrufen darf. Requests für ein Modell außerhalb der Liste werden vor jedem Upstream-Aufruf abgelehnt. |
allow_ips | Eine IP- oder CIDR-Allowlist am Schlüssel. Requests von einer Adresse außerhalb der Liste werden bei der Authentifizierung abgelehnt. |
credit_limit_usd (Ausgabenlimit) | Ein hartes Ausgabenlimit am Schlüssel, in USD. Sobald die akkumulierte Nutzung des Schlüssels das Limit erreicht, werden weitere Requests abgelehnt. Nützlich zur Begrenzung unkontrollierter Agenten-Schleifen. |
| Environment-Tag | Ein Freitext-Label (z. B. production, staging) an einem Schlüssel, um ihn nach Deployment-Umgebung zu organisieren und zu identifizieren. |
is_firewall_gateway | Ein Flag, das einen Schlüssel für die Firewall-Gateway-Routen (/api/v1/firewall/*) scopet — die MCP-Dispatch- und Evaluate-Hook-Endpunkte. Ein regulärer Schlüssel bekommt 403 auf diesen Routen. |
| Minimaler Handlungsspielraum | Das Prinzip, einem Agenten nur die Modelle, Ausgaben, IPs und Policies zu geben, die er tatsächlich benötigt — nicht mehr. Implementiert durch Kombination von model_limits, allow_ips, credit_limit_usd und einer restriktiven Firewall-Policy auf demselben Schlüssel. Siehe Scope, Keys & Policies. |
Guardrails
| Begriff | Definition |
|---|---|
| Guardrail | Eine benannte, workspace-bezogene Content-Policy — eine geordnete Liste von Regeln, die das Gateway gegen Request-Input und Modell-Output ausführt. Einmal an einen Schlüssel binden (oder als Workspace-Default setzen); jeder gebundene Aufruf wird ohne Redeploy geprüft. |
| Regel | Eine Prüfung innerhalb eines Guardrails: ein Typ (was zu erkennen), eine Stage (wo zu suchen) und eine Aktion (was zu tun). Regeln laufen der Reihe nach. |
| Stage | input (der Request des Aufrufers), output (die Antwort des Modells) oder both. Eine Regel löst nur bei ihrer deklarierten Stage aus. |
| Aktion | block — den gesamten Request ablehnen (HTTP 400); mask — den Treffer redigieren und den Aufruf durchlassen; flag — nur loggen, kein Traffic-Eingriff. |
guardrail_blocked | Der Fehlercode, der zurückgegeben wird, wenn eine Guardrail-Regel eine block-Aktion auslöst. Gibt HTTP 400 zurück. Der Request kostet kein Kontingent — Input-Stage-Blocks feuern vor der Messung; Output-Stage-Blocks erstatten vorab verbrauchtes Kontingent zurück. |
| PII-Shield | Eine pii-Typregel, die eingebaute sensible Entity-Typen erkennt (E-Mail, Telefon, SSN, Kreditkarte, IP und mehr) und sie mit typisierten Tags maskiert. (Der pii-Regeltyp unterstützt auch per-Entity-block, wenn Sie eigene verfassen.) Der kanonische Ausgangspunkt für Data-Loss-Prevention. Secrets und Credentials werden durch das separate Secrets-Blocker-Preset abgedeckt. |
| Prompt-Injection-Guardrail | Eine Sicherheitsregel, die Versuche erkennt, durch nicht vertrauenswürdige Inhalte (Webseiten, Tool-Ergebnisse) die Anweisungen des Agenten zu kapern. Wird als Prompt-Injection-Basics-Preset in der Safety-Template-Kategorie geliefert. |
| Sensible-Wort-Filter | Eine keyword-Typregel, die eine Liste literaler Begriffe ohne Beachtung der Groß-/Kleinschreibung matcht. Die einfachste Denylist. |
| LLM-Judge | Eine llm_judge-Typregel, die eine semantische Prüfung (Toxizität, Off-Topic, Jailbreak-Absicht) gegen ein Modell in Ihrem Workspace durchführt. Für vage Policies verwenden, die kein Regex erfassen kann. Tokens werden als Judge-Sub-Zeile abgerechnet. |
| Kontextuelles Grounding | Eine grounding-Typregel, die die Antwort des Modells gegen die RAG-Quellen auf dem Request bewertet und Antworten markiert oder blockiert, die ihnen nicht treu sind. |
| Log raw content | Ein per-Guardrail-Toggle — standardmäßig aus (datenschutzkonservativ). Wenn aus, zeichnet der Matches-Feed auf, dass eine Regel ausgelöst hat, aber nicht den gematchten Teilstring. Pro Guardrail einschalten, wenn Sie den tatsächlichen String zur Triage benötigen. |
| Matches-Feed | Der workspace-weite Datensatz jeder ausgelösten Regel: Regeltyp, Aktion, Stage, Detail-String und (wenn Log raw content an ist) der gematchte Teilstring. Nach Guardrail, Regeltyp und Aktion filterbar. |
Agent-Firewall
| Begriff | Definition |
|---|---|
| Firewall-Policy | Ein benannter, workspace-bezogener Satz geordneter Regeln, den das Gateway bei jedem Tool-Call auswertet. Einmal an einen Schlüssel binden oder als Workspace-Default setzen; keine Agenten-Code-Änderung erforderlich. |
| Verdikt | Das Ergebnis, das eine Regel (oder der Default) für einen Tool-Call erzeugt. Eines von allow, audit, deny, sanitize, pending_approval oder cap_cost. |
| Standard-Verdikt | Das Verdikt, das angewendet wird, wenn keine Regel in der Policy auf den Tool-Call matcht. Standardmäßig audit — alles erlauben und aufzeichnen — bis Sie bereit sind durchzusetzen. |
| Durchsetzungs-Surface | Der Punkt im Request-Lebenszyklus, an dem die Firewall einen Aufruf sieht: inbound (Tool-Definitionen, die der Agent anbietet), response (Tool-Calls, die das Modell ausgibt), mcp (ein tools/call durch das MCP-Gateway) oder egress (ein ausgehendes Ziel, das von einem Tool gemeldet wird). Siehe Firewall. |
| Tool-Allowlist (Glob) | Ein tool_name_glob auf einer Regel — eine kleine case-sensitive Grammatik (shell.*, *.exec, *), die einen Tool-Namen oder eine Familie matcht. First-Match-Wins gegen die geordnete Regelliste. |
| Argument-Validierung | args_match-Klauseln auf einer Regel — eq, contains, regex, in, cidr_match, gt, lt-Operatoren über JSONPath-Felder in den Tool-Argumenten. Der Unterschied zwischen „shell.exec blockieren” und „shell.exec nur blockieren, wenn der Befehl rm -rf ist.” |
| Sanitize | Ein sanitize-Verdikt, das gematchte Teilstrings (Secrets, PII) aus Tool-Argumenten redigiert und den bereinigten Aufruf weiterleitet, anstatt die gesamte Aktion zu blockieren. Eskaliert zu einem Block auf der inbound-Surface. |
| Egress-Kontrolle | Eine egress-Surface-Regel mit einer Host/CIDR-Allow- oder -Deny-Liste — die primäre Verteidigung gegen SSRF und Datenexfiltration. Das tight-Autonomie-Level verweigert auch die üblichen fetch-förmigen Tools (http_fetch, fetch_url, web_search, request). |
cap_cost | Ein Verdikt, das Tool-Calls verweigert, sobald die akkumulierten Ausgaben des Agentenlaufs (in Cent) eine pro-Regel-Obergrenze überschreiten. Ein Schutzschalter für unkontrollierte Agenten-Schleifen; als Regel verfasst und löst sich je nach akkumulierten Ausgaben zu allow oder deny auf. |
| Sequenzregel | Eine Regel mit einem sequence-Block, die eine geordnete mehrstufige Kette von Tool-Calls innerhalb eines Zeitfensters matcht (z. B. Bulk-Read → Export → Egress). Reaktiv durch einen asynchronen Matcher durchgesetzt; erscheint im Events-Feed. |
firewall_blocked | Der Fehlercode bei einem verweigerten Tool-Call. Gibt HTTP 400 auf inbound zurück; ein Tool-Fehler auf mcp. Als skip-retry markiert. |
Freigabe / HITL (pending_approval) | Ein pending_approval-Verdikt hält einen Tool-Call für menschliche Überprüfung zurück. Der Agent erhält eine „held”-Antwort mit einer Approval-ID, ein Prüfer genehmigt oder lehnt out-of-band ab, und der Agent reicht mit einem einmal nutzbaren Approval-Token erneut ein. Der HTTP-Fehlercode während des Holds ist firewall_approval_pending. |
| Anomalieerkennung | Statistische Ebene über statischen Regeln. Bewertet per-Tool-Aktivität gegen eine 14-Tage-Hour-of-Week-Baseline und markiert Spikes, Retry-Schleifen und neuartige Tool-Übergangspfade auf einem überprüfbaren Feed. |
Haltungen
| Begriff | Definition |
|---|---|
| Observe-Mode | Eine Workspace-Level-Einstellung. Wenn an und keine Policy an einen Schlüssel gebunden ist, werden Tool-Calls erlaubt, aber als Abdeckungslücken geloggt, was die Discovered-Tools-Ansicht befüllt. |
| Shadow-Mode | Ein Flag auf einer Policy. Die Policy wertet aus und loggt exakt wie in Produktion, aber jedes durchsetzende Verdikt wird auf audit herabgestuft (Grund vorangestellt [shadow] would …). Sicherer Rollout-Schalter. |
| Enforce | Der Standardzustand, wenn Shadow-Mode aus ist und eine Policy angehängt ist. Verdikte treten in Kraft — deny blockiert, sanitize redigiert, pending_approval hält zurück. |
| Autonomie-Level | Ein einzelner Schalter (tight / balanced / permissive), der die Firewall- und Guardrails-Haltung des Workspaces atomar in einer Transaktion mit Ein-Klick-Undo ersetzt. Siehe Enforcement-Modi und Secure-Agents-Baseline. |
MCP & Skills
| Begriff | Definition |
|---|---|
| MCP-Server | Ein Model-Context-Protocol-Server, der in Ihrem Workspace registriert und durch das Firewall-MCP-Gateway (api.orcarouter.ai/api/v1/firewall/mcp) exponiert wird. Jedes tools/call, das er erhält, wird inline ausgewertet. Siehe Firewall-MCP. |
tools/call | Die MCP-Protokollnachricht, die ein Tool an einen MCP-Server dispatcht. Die Firewall wertet es auf der mcp-Surface aus, bevor es weitergeleitet wird. |
| Rug-Pull | Ein Supply-Chain-Risiko, bei dem ein MCP-Server oder eine installierte Fähigkeit nach Gewährung des Zugangs seine Tool-Definitionen ändert oder erweitert. OrcaRouter steuert den Schadensradius: jeder MCP-tools/call wird auf der mcp-Surface gegen Ihre Regeln firewall-ausgewertet, und ein Skill, der als riskant eingestuft wird, wird in quarantine gehalten, bis ein Mensch ihn überprüft. |
| Skill | Ein Fähigkeits-Bundle (ein oder mehrere Tools von einem oder mehreren MCP-Servern), das das Gateway bei der Registrierung auf Risiken scannt. Jeder Skill erhält ein Risikoband und einen Enforcement-Mode (allow, quarantine, block), der auf Policy-Level-Verdikte aufgesattelt wird. |
Compliance & Daten
| Begriff | Definition |
|---|---|
| Compliance-Pack | Ein vorgefertigtes Guardrail + Firewall-Policy-Bundle für ein regulatorisches Profil (GDPR, PCI, HIPAA, Finanzdaten). Einmalig aus der Template-Bibliothek anwenden; Regeln sind nach Anwendung editierbar. |
| Signierter Compliance-Report | Ein workspace-weiter Attestierungsreport, signiert mit Ed25519. Die Signatur ist öffentlich verifizierbar — jeder mit dem öffentlichen Schlüssel kann bestätigen, dass der Report nicht manipuliert wurde. |
| Datenresidenz | Die für Ihre Compliance-Nachweise aufgezeichnete Region. Signierte Compliance-Reports werden nach Region gestempelt und gespeichert (us, eu, uk, ap, cn, global), und ein Report wird nur unter einer passenden deklarierten Region bedient. In den Compliance-Einstellungen setzen. |
| Recht auf Löschung | Bei einer Workspace-Löschung oder einem expliziten Löschantrag gewährt OrcaRouter ein 30-Tage-Gnadenfenster und bereinigt dann PII aus Logs und Audit-Datensätzen für diesen Workspace. |
| Audit-Event | Ein unveränderlicher Datensatz, der nach jedem Erstellen, Aktualisieren, Löschen und jeder Durchsetzungsentscheidung geschrieben wird — Policy-Änderungen, Regelbearbeitungen, Freigabe-Auflösungen, Guardrail-Speicherungen. Secret-Werte und Regel-Blobs werden nie ins Audit-Log geschrieben. |
Bedrohungen (Ein-Zeiler)
| Bedrohung | Was es ist |
|---|---|
| Prompt-Injection | Ein Angreifer bettet Anweisungen in Inhalte ein, die der Agent aufnimmt (direkt: in der Benutzernachricht; indirekt: in einer Webseite, einem Dokument oder einem Tool-Ergebnis), um das Verhalten des Agenten zu kapern. |
| Jailbreak | Ein crafted Prompt, der versucht, das Safety-Training eines Modells zu umgehen, typischerweise durch Framing des Requests als Rollenspiel, Hypothetisch oder System-Override. |
| Übermäßige Handlungsmacht / Confused Deputy | Ein Agent, der mit mehr Berechtigungen ausgestattet wurde, als seine Aufgabe erfordert, was ihn durch injizierte Anweisungen trivial ausnutzbar macht — die wichtigste Mitigierung ist minimaler Handlungsspielraum. |
| Datenexfiltration | Ein Agent (oder eine injizierte Anweisung), der Tool-Calls oder ausgehende Requests steuert, um sensible Daten an einen vom Angreifer kontrollierten Endpunkt zu leaken. Durch Egress-Kontrollregeln gemindert. |
| Denial-of-Wallet | Ein unkontrollierter oder adversarisch ausgelöster Agent, der unbegrenzte Upstream-Modell-Ausgaben generiert. Durch credit_limit_usd am Schlüssel und cap_cost-Regeln in der Firewall-Policy gemindert. |
Das vollständige Bild, wie diese Kontrollen zusammenwirken, finden Sie unter KI-Agenten mit OrcaRouter absichern.
