Sicherheits-FAQ - OrcaRouter

Sie haben eine Control-Seite gelesen und haben eine Frage übrig, bevor Sie ausliefern. Dies ist die KI-Agenten-Sicherheits-FAQ — die übergreifenden Fragen, die den gesamten Zero-Trust-Abschnitt spannen, an einem Ort beantwortet, jede verlinkt auf die Referenz für die Tiefe. Wenn Sie brandneu im Abschnitt sind, beginnen Sie bei KI-Agenten absichern und dem Control-Stack; diese Seite setzt voraus, dass Sie wissen, dass es zwei Durchsetzungs-Planes gibt — Guardrails (Prompt-/Antwort-Text) und die Firewall (Agenten-Aktionen) — und nur die Kanten festgenagelt brauchen.

1. KI-Agenten-Sicherheits-FAQ — hier beginnen

Eine 30-Sekunden-Karte, welche Kontrolle welche Frage beantwortet:

Sie fragen nach…	Die Plane	Lesen
Text in Prompts oder Antworten (PII, Secrets, Jailbreaks)	Guardrails	Guardrails
Tool-Calls, MCP, Egress, Skills	Firewall	Firewall
Welche von beiden auf einem `400` gefeuert hat	Beide	Warum wurde es blockiert?

Jeder Sicherheitsblock auf dem gehosteten Gateway ist HTTP 400 mit einem maschinenlesbaren code. Lesen Sie zuerst den Code — er gabelt Sie zum richtigen Feed. Die vollständige Tabelle steht in Fehlercodes.

2. Guardrails — Inhalts-Screening

Was passiert, wenn auf einem Request kein Guardrail aufgelöst wird?

Nichts. Die Auflösung ist: explizite guardrail_id auf dem Key (wenn es existiert und aktiviert ist) → andernfalls das is_default-Guardrail des Workspaces → andernfalls keine Durchsetzung. Ein deaktiviertes explizites Attachment ist der Aus-Schalter — es fällt nicht auf den Default zurück. Wenn nichts aufgelöst wird, ist der Request byte-identisch zu einem Workspace, der das Feature nie aktiviert hat.

Kostet ein blockierter Request Kontingent?

Nein. Eine block-Aktion gibt 400 guardrail_blocked zurück und kostet kein Kontingent — ein Block im Input-Stage feuert vor der Messung; ein Block im Output-Stage erstattet das vorab verbrauchte Kontingent. Er ist auch als skip-retry markiert: Denselben Prompt identisch erneut auszuführen blockiert einfach wieder.

Welche Regeltypen und Aktionen gibt es?

Regeltypen: keyword, regex, pii, max_chars, external, llm_judge, grounding. Aktionen: block (ablehnen), mask (redigieren und weiterleiten), flag (nur loggen, keine Traffic-Änderung). Stages: input, output, both. Siehe Guardrails für jeden.

Welche PII-Entitäten werden erkannt, und wie sieht eine Maske aus?

Eingebaute Entitäten umfassen email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address, plus regionale Typen (jp_mynumber, kr_rrn, cn_resident_id). Eine mask-Aktion rendert einen typisierten Tag — jane@acme.com → [EMAIL], eine SSN → [SSN]. Sie können bis zu 25 eigene Regex-Entitäten pro Regel überlagern (mit einer optionalen Luhn-Prüfsumme) und die Aktion pro Entität über entity_actions überschreiben.

Wird Output-Masking auf streaming Antworten durchgesetzt?

Output-block wird beide Wege durchgesetzt — nicht-streaming Antworten werden gescreent, bevor sie zurückkehren, und ein Streaming-Scanner schneidet den Stream mid-flight ab. Output-mask ist derzeit nur nicht-streaming; bei einer streaming Antwort passiert der Chunk unmaskiert durch (In-Band-Stream- Rewriting ist auf der Roadmap). Input-Stage-Masking — das Bereinigen des Requests, bevor das Modell ihn sieht — ist ungeachtet dessen live. Das PII-Shield-Preset maskiert heute im Input-Stage.

Was kostet der LLM-Judge?

keyword / regex / pii / max_chars-Regeln machen keinen Modellaufruf und berechnen nichts. Eine llm_judge-Regel führt eine semantische Prüfung durch ein Workspace-Modell aus (begrenzt durch judge_timeout_ms, standardmäßig fail-open) und wird als separate Judge-Unterzeile berechnet. Eine grounding-Regel bewertet die Antwort-Treue gegen die abgerufenen Quellen des Requests (Schwellenwert-Default 0.7) auf dieselbe Weise.

Kann ich sehen, was eine Regel tatsächlich gematcht hat?

Öffnen Sie den Matches-Feed (GET /api/guardrail/match, Member). Jede Zeile zeichnet Regeltyp, Aktion, Stage und einen Detail-String auf — und den gematchten Teilstring nur, wenn „Log raw content” an ist für dieses Guardrail (standardmäßig aus, die datenschutzkonservative Haltung). Falscher Block? Markieren Sie ihn als False Positive (POST /api/guardrail/match/:id/mark-fp, Admin).

Scannen Sie Abhängigkeiten auf bekannte CVEs?

Ein Guardrail kann einen Prompt mit einem Code-Security-Advisory dekorieren (z. B. eine CVE-/SBOM-Notiz auf einem referenzierten Paket), ohne den Text zu blockieren oder zu maskieren. Dies ist eine Annotation-Ebene, die den Request augmentiert, statt ihn abzulehnen — verschieden von den block / mask / flag-Aktionen, die Sie direkt verfassen. Verbinden Sie einen Scanner unter Integrationen, um es anzutreiben.

3. Firewall — Agenten-Aktionen

Wie unterscheidet sich die Firewall von Guardrails bei der Auflösung?

Ein Schlüsselunterschied: Eine deaktivierte angehängte Firewall-Policy fällt auf den Workspace-Default zurück, während ein deaktiviertes angehängtes Guardrail zu keinem auflöst. Andernfalls hängen sich beide über den Key an (firewall_policy_id / guardrail_id) und teilen sich den Workspace-Default-Fallback. Siehe Guardrails vs. Firewall.

Was sind die Verdikte und Surfaces?

Verdikte: allow, audit, deny, sanitize, pending_approval, cap_cost. default_verdict ist allow / audit / deny (standardmäßig audit). Surfaces: inbound (angebotene Tools), response (modell-ausgegebene tool_calls), mcp (ein tools/call), egress (ausgehender Host/IP/CIDR). Das Verdikt-Glossar dekodiert jeden.

Bereinigt `sanitize`, was ein Tool zurückgibt?

Nein — und das ist das häufige Missverständnis. Ein sanitize-Verdikt redigiert nur gematchte Teilstrings aus den Tool-Call-Argumenten, nie den Inhalt, den ein Tool zurückgibt. Auf der inbound-Surface (noch keine Aufruf-Args) eskaliert sanitize zu einem Deny.

Was tun die Autonomie-Stufen?

Ein Schalter setzt Ihre gesamte Haltung und schreibt echte editierbare autonomy_*-Zeilen:
• balanced (empfohlener Start) — default audit, deny destruktive Shell, PII Shield in audit-only (flaggt PII).
• tight — default-deny, deny destruktive Shell, deny SSRF-förmige Fetch-Tools, PII Shield + Secrets Blocker durchgesetzt.
• permissive — nur observe.
Ein-Klick-Undo stellt den vorherigen Zustand aus dem Audit-Snapshot wieder her, den das Apply geschrieben hat. Es ist ein einzelner Schritt — Undo ist nicht mehr verfügbar, sobald ein späteres Apply (oder eine manuelle Policy-Bearbeitung) diesen Snapshot abgelöst hat. Siehe Enforcement-Modes.

Blockiert das SSRF-Preset private IPs und Cloud-Metadaten?

Nicht per Preset. Das tight-Autonomie-SSRF-Preset verweigert die üblichen fetch-förmigen Tool-Namen (http_fetch, web_search, fetch_url, request). Um nach Ziel zu verweigern — RFC-1918-Bereiche, Cloud-Metadaten-IPs, bestimmte CIDRs — verfassen Sie Ihre eigene egress-Surface-Host-/CIDR-Deny- Regel. Kein Preset liefert CIDR-Regeln für Sie. Siehe Egress & Datenexfiltration.

Wie rolle ich eine Policy aus, ohne Traffic zu brechen?

Schalten Sie Shadow-Mode ein (pro Policy): Die Policy wertet aus und loggt, stuft aber jedes durchsetzende Verdikt auf audit herab und stellt dem Grund [shadow] would … voran. Beobachten Sie die Events- und Runs-Ansichten, schalten Sie dann Shadow aus, um durchzusetzen. Der Observe-Mode auf Workspace-Ebene (firewall_observe_mode) ist der komplementäre Discovery-Regler — er loggt nicht abgedeckte Aufrufe als Lücken in Discovered Tools.

Wie funktioniert die menschliche Freigabe (HITL)?

Ein pending_approval-Verdikt gibt 400 firewall_approval_pending mit einer Approval-ID zurück. Ein Prüfer löst es aus der Konsole (Developer+) oder über einen HMAC-Webhook-Callback auf (POST /api/v1/firewall/approvals/:id/callback). Der Agent pollt GET /api/v1/firewall/approvals/:id und reicht den ursprünglichen Aufruf mit einem einmal nutzbaren X-OrcaRouter-Firewall-Approval-Header erneut ein. Siehe Gefährliche Tool-Calls.

Wonach sucht die Anomalieerkennung?

Raten-/Kosten-Spikes, bewertet gegen eine gelernte Hour-of-week-Baseline (14-Tage), plus retry_loop und novel_path (ein Tool-zu-Tool-Übergang, der noch nie zuvor gesehen wurde). Der Feed ist Member-lesbar; snoozen Sie eine Anomalie für bis zu 7 Tage. Siehe Excessive Agency.

4. MCP, Keys & Gateway-Zugriff

Wie werden MCP-Server gesteuert?

Registrieren Sie einen Server (name, endpoint, auth_mode von none/bearer/oauth/basic, verschlüsselte Credentials) und das MCP-Gateway wertet jeden tools/call auf der mcp-Surface vor dem Dispatch aus. Health wird verfolgt (ok/degraded/down); proben Sie es mit POST /api/workspace/firewall/mcp_servers/:id/probe. Eine Probe baselined auch das angebotene Tool-Schema des Servers — späteres Drift kippt seinen schema_status von verified auf changed (das „Rug-Pull”-Signal), und Sie re-baselinen (genehmigen) oder quarantine-en den Server. So ist Governance Per-Aufruf-Auswertung plus Schema-Integritäts-Tracking und Skill-Risikobänder. Siehe Firewall-MCP und MCP-Tool-Poisoning.

Was passiert mit einem riskanten oder auto-erkannten Skill?

Jeder Skill wird in ein Risikoband gescannt mit einem Enforcement-Mode von allow / quarantine / block. Ein quarantänierter Skill wird für Freigabe zurückgehalten; auto-erkannte Skills bleiben quarantäniert, bis ein Mensch sie überprüft. Der Mode reitet auf dem Regel-Verdikt obendrauf.

Welche Key-Felder sperren einen Agenten ab?

model_limits (+ model_limits_enabled), allow_ips, credit_limit_usd (0 = unbegrenzt), expired_time (-1 = nie), environment, guardrail_id, firewall_policy_id und is_firewall_gateway. Kombinieren Sie sie für minimalen Handlungsspielraum — siehe Scope, Keys & Policies. Keys werden bei der Anzeige maskiert.

Warum erhalte ich 403 auf `/api/v1/firewall/*`?

Diese Gateway-Routen (POST /evaluate, POST /evaluate_plan, ANY /mcp) erfordern einen Key mit is_firewall_gateway=true — ein dediziertes firewall-gateway-scoped Token, nicht Ihren sk-orca-…-Relay-Key. Eines zu prägen und sein Klartext zu lesen ist Admin+.

Was ist der Unterschied zwischen Konfigurieren und Aufrufen?

Konfiguration läuft in der Konsole — Guardrails, Firewall-Policies, MCP-Server und Compliance werden unter Ihrem Session-/Access-Token (UserAuth) verwaltet, und jeder Schreibvorgang ist rollengegated (Developer+ für Policy- und Guardrail-Schreibvorgänge). Nur Ihr /v1/*-Relay-Traffic verwendet einen sk-orca-…-Key; nur die /api/v1/firewall/*-Gateway-Hooks verwenden das firewall-gateway-scoped Token.

5. Compliance, Residency & Daten

Welche Frameworks sind abgedeckt?

Der Katalog umfasst SOC 2, HIPAA, GDPR, UK GDPR, den EU AI Act, ISO 27001, ISO 42001, das NIST AI RMF, PCI DSS, CCPA, GLBA, die OWASP Top 10 for LLM Applications (als Control-Mapping), plus regionale Profile (PIPL, APPI, PIPA, LGPD, PIPEDA, DPDP, Australiens APPs, Singapur PDPA, DORA und mehrere US-Bundesstaatengesetze). Durchsuchen Sie den Katalog, die Packs und die Readiness — alle Member, kostenlos — unter /api/compliance/*.

Warum ist Install/Report gegated?

Durchsuchen ist kostenlos; ein Pack installieren, einen Report generieren, live gehen und Residency setzen erfordern Workspace-Admin und einen kostenpflichtigen Plan (server-gegated). Ein Pack zu installieren (POST /api/compliance/packs/:key/install) materialisiert echte Guardrails + Firewall-Policies, die Sie dann bearbeiten können.

Sind die Compliance-Reports verifizierbar?

Ja. Ein Report ist Ed25519-signiert + SHA-256 und öffentlich verifizierbar: Holen Sie den Public Key (GET /api/public/compliance/pubkey), verifizieren Sie einen Report (POST /api/public/compliance/verify) oder übergeben Sie einem Auditor einen Share-Link (GET /api/public/compliance/share/:token). Exporte sind CSV / JSON / PDF.

Was pinnt Data-Residency tatsächlich?

Es ist die Region des Compliance-Report-Artefakts (us, eu, uk, ap, cn, global), setzbar über PUT /api/compliance/residency (Admin); ein Cross-Region-Lesevorgang wird zurückgehalten. Es ist kein Geo-Pinning Ihrer Inferenzdaten. Siehe Shared Responsibility.

Wie lange werden Logs aufbewahrt, und wie lasse ich Daten löschen?

Die Request-Log-Retention ist standardmäßig 30 Tage und server-geklemmt auf ein hartes Maximum von 180 Tagen. Eine Kontolöschung wird für ein Gnadenfenster (Default 30 Tage) gehalten, bevor ein unwiderruflicher PII-Scrub läuft; dieser Scrub purgt kaskadierend die Mongo-Request-Log-Payloads, Guardrail-Matches und Firewall-Events, die Ihnen zugeordnet sind. Das Archivieren eines Workspaces purgt dieselben drei Collections für diesen Workspace kaskadierend. Siehe PII-Exposure.

Ein 400 von einer Sicherheitskontrolle ist kein Bug in Ihrem Prompt. Es ist eine Policy, die ihre Arbeit tut. Versuchen Sie es nicht erneut — diese Codes sind skip-retry. Verfolgen Sie die Regel und entscheiden Sie dann, ob Sie den Aufruf beheben oder die Policy lockern: Warum wurde es blockiert?.

6. Immer noch hängen geblieben?

Fehlercodes

Jeder Block, Hold und jede Ablehnung, die das Gateway zurückgeben kann.

Warum wurde es blockiert?

Lesen Sie den Code, öffnen Sie den richtigen Feed, finden Sie die exakte Regel.

Guardrail-API

Routen, Rollen und Payloads für Inhaltspolicies.

Firewall-API

Konsolen- und Gateway-Routen für Aktions-Governance.

Compliance-API

Katalog-, Install-, Report- und Residency-Endpunkte.

Glossar

Jeder Begriff, der über die Zero-Trust-Docs verwendet wird.

Für die Bedrohungen, die diese Kontrollen stoppen, beginnen Sie beim Bedrohungsmodell. Für eine saubere Baseline folgen Sie der Secure-Agents-Baseline.

​1. KI-Agenten-Sicherheits-FAQ — hier beginnen

​2. Guardrails — Inhalts-Screening

​3. Firewall — Agenten-Aktionen

​4. MCP, Keys & Gateway-Zugriff

​5. Compliance, Residency & Daten

​6. Immer noch hängen geblieben?

Fehlercodes

Warum wurde es blockiert?

Guardrail-API

Firewall-API

Compliance-API

Glossar

1. KI-Agenten-Sicherheits-FAQ — hier beginnen

2. Guardrails — Inhalts-Screening

3. Firewall — Agenten-Aktionen

4. MCP, Keys & Gateway-Zugriff

5. Compliance, Residency & Daten

6. Immer noch hängen geblieben?