Zum Hauptinhalt springen

KI-Agenten-Sicherheits-Glossar

Ein Schnellreferenz-Index aller Begriffe aus der Zero-Trust-Dokumentation. Jede Definition ist auf das beschränkt, was Sie als Entwickler auf dem gehosteten Gateway beobachten und konfigurieren können. Begriffe verlinken zu ihren Heimatseiten für vollständige Details.

Identität & Scope

BegriffDefinition
WorkspaceDie oberste Tenant-Grenze. Alle Schlüssel, Guardrails, Firewall-Policies und Audit-Events gehören zu einem Workspace; nichts überschreitet Tenant-Grenzen. Siehe Scope, Keys & Policies.
API-Key (Scoped Key)Ein Bearer-Token, den Ihr Agent bei jedem Aufruf präsentiert. Trägt seine eigene Modell-Allowlist, IP-Einschränkungen, Ausgabenlimit, Ablauf und die exakte Guardrail + Firewall-Policy, die für ihn gilt. Siehe Scope, Keys & Policies.
model_limitsDer Satz von Modellen (oder Modell-Globs), die ein Schlüssel aufrufen darf. Requests für ein Modell außerhalb der Liste werden vor jedem Upstream-Aufruf abgelehnt.
allow_ipsEine IP- oder CIDR-Allowlist am Schlüssel. Requests von einer Adresse außerhalb der Liste werden bei der Authentifizierung abgelehnt.
credit_limit_usd (Ausgabenlimit)Ein hartes Ausgabenlimit am Schlüssel, in USD. Sobald die akkumulierte Nutzung des Schlüssels das Limit erreicht, werden weitere Requests abgelehnt. Nützlich zur Begrenzung unkontrollierter Agenten-Schleifen.
Environment-TagEin Freitext-Label (z. B. production, staging) an einem Schlüssel, um ihn nach Deployment-Umgebung zu organisieren und zu identifizieren.
is_firewall_gatewayEin Flag, das einen Schlüssel für die Firewall-Gateway-Routen (/api/v1/firewall/*) scopet — die MCP-Dispatch- und Evaluate-Hook-Endpunkte. Ein regulärer Schlüssel bekommt 403 auf diesen Routen.
Minimaler HandlungsspielraumDas Prinzip, einem Agenten nur die Modelle, Ausgaben, IPs und Policies zu geben, die er tatsächlich benötigt — nicht mehr. Implementiert durch Kombination von model_limits, allow_ips, credit_limit_usd und einer restriktiven Firewall-Policy auf demselben Schlüssel. Siehe Scope, Keys & Policies.

Guardrails

BegriffDefinition
GuardrailEine benannte, workspace-bezogene Content-Policy — eine geordnete Liste von Regeln, die das Gateway gegen Request-Input und Modell-Output ausführt. Einmal an einen Schlüssel binden (oder als Workspace-Default setzen); jeder gebundene Aufruf wird ohne Redeploy geprüft.
RegelEine Prüfung innerhalb eines Guardrails: ein Typ (was zu erkennen), eine Stage (wo zu suchen) und eine Aktion (was zu tun). Regeln laufen der Reihe nach.
Stageinput (der Request des Aufrufers), output (die Antwort des Modells) oder both. Eine Regel löst nur bei ihrer deklarierten Stage aus.
Aktionblock — den gesamten Request ablehnen (HTTP 400); mask — den Treffer redigieren und den Aufruf durchlassen; flag — nur loggen, kein Traffic-Eingriff.
guardrail_blockedDer Fehlercode, der zurückgegeben wird, wenn eine Guardrail-Regel eine block-Aktion auslöst. Gibt HTTP 400 zurück. Der Request kostet kein Kontingent — Input-Stage-Blocks feuern vor der Messung; Output-Stage-Blocks erstatten vorab verbrauchtes Kontingent zurück.
PII-ShieldEine pii-Typregel, die eingebaute sensible Entity-Typen erkennt (E-Mail, Telefon, SSN, Kreditkarte, IP und mehr) und sie mit typisierten Tags maskiert. (Der pii-Regeltyp unterstützt auch per-Entity-block, wenn Sie eigene verfassen.) Der kanonische Ausgangspunkt für Data-Loss-Prevention. Secrets und Credentials werden durch das separate Secrets-Blocker-Preset abgedeckt.
Prompt-Injection-GuardrailEine Sicherheitsregel, die Versuche erkennt, durch nicht vertrauenswürdige Inhalte (Webseiten, Tool-Ergebnisse) die Anweisungen des Agenten zu kapern. Wird als Prompt-Injection-Basics-Preset in der Safety-Template-Kategorie geliefert.
Sensible-Wort-FilterEine keyword-Typregel, die eine Liste literaler Begriffe ohne Beachtung der Groß-/Kleinschreibung matcht. Die einfachste Denylist.
LLM-JudgeEine llm_judge-Typregel, die eine semantische Prüfung (Toxizität, Off-Topic, Jailbreak-Absicht) gegen ein Modell in Ihrem Workspace durchführt. Für vage Policies verwenden, die kein Regex erfassen kann. Tokens werden als Judge-Sub-Zeile abgerechnet.
Kontextuelles GroundingEine grounding-Typregel, die die Antwort des Modells gegen die RAG-Quellen auf dem Request bewertet und Antworten markiert oder blockiert, die ihnen nicht treu sind.
Log raw contentEin per-Guardrail-Toggle — standardmäßig aus (datenschutzkonservativ). Wenn aus, zeichnet der Matches-Feed auf, dass eine Regel ausgelöst hat, aber nicht den gematchten Teilstring. Pro Guardrail einschalten, wenn Sie den tatsächlichen String zur Triage benötigen.
Matches-FeedDer workspace-weite Datensatz jeder ausgelösten Regel: Regeltyp, Aktion, Stage, Detail-String und (wenn Log raw content an ist) der gematchte Teilstring. Nach Guardrail, Regeltyp und Aktion filterbar.

Agent-Firewall

BegriffDefinition
Firewall-PolicyEin benannter, workspace-bezogener Satz geordneter Regeln, den das Gateway bei jedem Tool-Call auswertet. Einmal an einen Schlüssel binden oder als Workspace-Default setzen; keine Agenten-Code-Änderung erforderlich.
VerdiktDas Ergebnis, das eine Regel (oder der Default) für einen Tool-Call erzeugt. Eines von allow, audit, deny, sanitize, pending_approval oder cap_cost.
Standard-VerdiktDas Verdikt, das angewendet wird, wenn keine Regel in der Policy auf den Tool-Call matcht. Standardmäßig audit — alles erlauben und aufzeichnen — bis Sie bereit sind durchzusetzen.
Durchsetzungs-SurfaceDer Punkt im Request-Lebenszyklus, an dem die Firewall einen Aufruf sieht: inbound (Tool-Definitionen, die der Agent anbietet), response (Tool-Calls, die das Modell ausgibt), mcp (ein tools/call durch das MCP-Gateway) oder egress (ein ausgehendes Ziel, das von einem Tool gemeldet wird). Siehe Firewall.
Tool-Allowlist (Glob)Ein tool_name_glob auf einer Regel — eine kleine case-sensitive Grammatik (shell.*, *.exec, *), die einen Tool-Namen oder eine Familie matcht. First-Match-Wins gegen die geordnete Regelliste.
Argument-Validierungargs_match-Klauseln auf einer Regel — eq, contains, regex, in, cidr_match, gt, lt-Operatoren über JSONPath-Felder in den Tool-Argumenten. Der Unterschied zwischen „shell.exec blockieren” und „shell.exec nur blockieren, wenn der Befehl rm -rf ist.”
SanitizeEin sanitize-Verdikt, das gematchte Teilstrings (Secrets, PII) aus Tool-Argumenten redigiert und den bereinigten Aufruf weiterleitet, anstatt die gesamte Aktion zu blockieren. Eskaliert zu einem Block auf der inbound-Surface.
Egress-KontrolleEine egress-Surface-Regel mit einer Host/CIDR-Allow- oder -Deny-Liste — die primäre Verteidigung gegen SSRF und Datenexfiltration. Das tight-Autonomie-Level verweigert auch die üblichen fetch-förmigen Tools (http_fetch, fetch_url, web_search, request).
cap_costEin Verdikt, das Tool-Calls verweigert, sobald die akkumulierten Ausgaben des Agentenlaufs (in Cent) eine pro-Regel-Obergrenze überschreiten. Ein Schutzschalter für unkontrollierte Agenten-Schleifen; als Regel verfasst und löst sich je nach akkumulierten Ausgaben zu allow oder deny auf.
SequenzregelEine Regel mit einem sequence-Block, die eine geordnete mehrstufige Kette von Tool-Calls innerhalb eines Zeitfensters matcht (z. B. Bulk-Read → Export → Egress). Reaktiv durch einen asynchronen Matcher durchgesetzt; erscheint im Events-Feed.
firewall_blockedDer Fehlercode bei einem verweigerten Tool-Call. Gibt HTTP 400 auf inbound zurück; ein Tool-Fehler auf mcp. Als skip-retry markiert.
Freigabe / HITL (pending_approval)Ein pending_approval-Verdikt hält einen Tool-Call für menschliche Überprüfung zurück. Der Agent erhält eine „held”-Antwort mit einer Approval-ID, ein Prüfer genehmigt oder lehnt out-of-band ab, und der Agent reicht mit einem einmal nutzbaren Approval-Token erneut ein. Der HTTP-Fehlercode während des Holds ist firewall_approval_pending.
AnomalieerkennungStatistische Ebene über statischen Regeln. Bewertet per-Tool-Aktivität gegen eine 14-Tage-Hour-of-Week-Baseline und markiert Spikes, Retry-Schleifen und neuartige Tool-Übergangspfade auf einem überprüfbaren Feed.

Haltungen

BegriffDefinition
Observe-ModeEine Workspace-Level-Einstellung. Wenn an und keine Policy an einen Schlüssel gebunden ist, werden Tool-Calls erlaubt, aber als Abdeckungslücken geloggt, was die Discovered-Tools-Ansicht befüllt.
Shadow-ModeEin Flag auf einer Policy. Die Policy wertet aus und loggt exakt wie in Produktion, aber jedes durchsetzende Verdikt wird auf audit herabgestuft (Grund vorangestellt [shadow] would …). Sicherer Rollout-Schalter.
EnforceDer Standardzustand, wenn Shadow-Mode aus ist und eine Policy angehängt ist. Verdikte treten in Kraft — deny blockiert, sanitize redigiert, pending_approval hält zurück.
Autonomie-LevelEin einzelner Schalter (tight / balanced / permissive), der die Firewall- und Guardrails-Haltung des Workspaces atomar in einer Transaktion mit Ein-Klick-Undo ersetzt. Siehe Enforcement-Modi und Secure-Agents-Baseline.

MCP & Skills

BegriffDefinition
MCP-ServerEin Model-Context-Protocol-Server, der in Ihrem Workspace registriert und durch das Firewall-MCP-Gateway (api.orcarouter.ai/api/v1/firewall/mcp) exponiert wird. Jedes tools/call, das er erhält, wird inline ausgewertet. Siehe Firewall-MCP.
tools/callDie MCP-Protokollnachricht, die ein Tool an einen MCP-Server dispatcht. Die Firewall wertet es auf der mcp-Surface aus, bevor es weitergeleitet wird.
Rug-PullEin Supply-Chain-Risiko, bei dem ein MCP-Server oder eine installierte Fähigkeit nach Gewährung des Zugangs seine Tool-Definitionen ändert oder erweitert. OrcaRouter steuert den Schadensradius: jeder MCP-tools/call wird auf der mcp-Surface gegen Ihre Regeln firewall-ausgewertet, und ein Skill, der als riskant eingestuft wird, wird in quarantine gehalten, bis ein Mensch ihn überprüft.
SkillEin Fähigkeits-Bundle (ein oder mehrere Tools von einem oder mehreren MCP-Servern), das das Gateway bei der Registrierung auf Risiken scannt. Jeder Skill erhält ein Risikoband und einen Enforcement-Mode (allow, quarantine, block), der auf Policy-Level-Verdikte aufgesattelt wird.

Compliance & Daten

BegriffDefinition
Compliance-PackEin vorgefertigtes Guardrail + Firewall-Policy-Bundle für ein regulatorisches Profil (GDPR, PCI, HIPAA, Finanzdaten). Einmalig aus der Template-Bibliothek anwenden; Regeln sind nach Anwendung editierbar.
Signierter Compliance-ReportEin workspace-weiter Attestierungsreport, signiert mit Ed25519. Die Signatur ist öffentlich verifizierbar — jeder mit dem öffentlichen Schlüssel kann bestätigen, dass der Report nicht manipuliert wurde.
DatenresidenzDie für Ihre Compliance-Nachweise aufgezeichnete Region. Signierte Compliance-Reports werden nach Region gestempelt und gespeichert (us, eu, uk, ap, cn, global), und ein Report wird nur unter einer passenden deklarierten Region bedient. In den Compliance-Einstellungen setzen.
Recht auf LöschungBei einer Workspace-Löschung oder einem expliziten Löschantrag gewährt OrcaRouter ein 30-Tage-Gnadenfenster und bereinigt dann PII aus Logs und Audit-Datensätzen für diesen Workspace.
Audit-EventEin unveränderlicher Datensatz, der nach jedem Erstellen, Aktualisieren, Löschen und jeder Durchsetzungsentscheidung geschrieben wird — Policy-Änderungen, Regelbearbeitungen, Freigabe-Auflösungen, Guardrail-Speicherungen. Secret-Werte und Regel-Blobs werden nie ins Audit-Log geschrieben.

Bedrohungen (Ein-Zeiler)

BedrohungWas es ist
Prompt-InjectionEin Angreifer bettet Anweisungen in Inhalte ein, die der Agent aufnimmt (direkt: in der Benutzernachricht; indirekt: in einer Webseite, einem Dokument oder einem Tool-Ergebnis), um das Verhalten des Agenten zu kapern.
JailbreakEin crafted Prompt, der versucht, das Safety-Training eines Modells zu umgehen, typischerweise durch Framing des Requests als Rollenspiel, Hypothetisch oder System-Override.
Übermäßige Handlungsmacht / Confused DeputyEin Agent, der mit mehr Berechtigungen ausgestattet wurde, als seine Aufgabe erfordert, was ihn durch injizierte Anweisungen trivial ausnutzbar macht — die wichtigste Mitigierung ist minimaler Handlungsspielraum.
DatenexfiltrationEin Agent (oder eine injizierte Anweisung), der Tool-Calls oder ausgehende Requests steuert, um sensible Daten an einen vom Angreifer kontrollierten Endpunkt zu leaken. Durch Egress-Kontrollregeln gemindert.
Denial-of-WalletEin unkontrollierter oder adversarisch ausgelöster Agent, der unbegrenzte Upstream-Modell-Ausgaben generiert. Durch credit_limit_usd am Schlüssel und cap_cost-Regeln in der Firewall-Policy gemindert.

Das vollständige Bild, wie diese Kontrollen zusammenwirken, finden Sie unter KI-Agenten mit OrcaRouter absichern.