1. KI-Agenten-Sicherheits-FAQ — hier beginnen
Eine 30-Sekunden-Karte, welche Kontrolle welche Frage beantwortet:| Sie fragen nach… | Die Plane | Lesen |
|---|---|---|
| Text in Prompts oder Antworten (PII, Secrets, Jailbreaks) | Guardrails | Guardrails |
| Tool-Calls, MCP, Egress, Skills | Firewall | Firewall |
Welche von beiden auf einem 400 gefeuert hat | Beide | Warum wurde es blockiert? |
2. Guardrails — Inhalts-Screening
Was passiert, wenn auf einem Request kein Guardrail aufgelöst wird?
Was passiert, wenn auf einem Request kein Guardrail aufgelöst wird?
guardrail_id auf dem Key (wenn es
existiert und aktiviert ist) → andernfalls das is_default-Guardrail des
Workspaces → andernfalls keine Durchsetzung. Ein deaktiviertes explizites
Attachment ist der Aus-Schalter — es fällt nicht auf den Default zurück.
Wenn nichts aufgelöst wird, ist der Request byte-identisch zu einem Workspace,
der das Feature nie aktiviert hat.Kostet ein blockierter Request Kontingent?
Kostet ein blockierter Request Kontingent?
block-Aktion gibt 400 guardrail_blocked zurück und kostet kein
Kontingent — ein Block im Input-Stage feuert vor der Messung; ein Block im
Output-Stage erstattet das vorab verbrauchte Kontingent. Er ist auch als
skip-retry markiert: Denselben Prompt identisch erneut auszuführen
blockiert einfach wieder.Welche Regeltypen und Aktionen gibt es?
Welche Regeltypen und Aktionen gibt es?
keyword, regex, pii, max_chars, external,
llm_judge, grounding. Aktionen: block (ablehnen), mask (redigieren und
weiterleiten), flag (nur loggen, keine Traffic-Änderung). Stages: input,
output, both. Siehe Guardrails für jeden.Welche PII-Entitäten werden erkannt, und wie sieht eine Maske aus?
Welche PII-Entitäten werden erkannt, und wie sieht eine Maske aus?
email, phone, credit_card, ssn,
ip, iban, mac_address, jwt, aws_access_key, api_key_openai,
bitcoin_address, plus regionale Typen (jp_mynumber, kr_rrn,
cn_resident_id). Eine mask-Aktion rendert einen typisierten Tag —
jane@acme.com → [EMAIL], eine SSN → [SSN]. Sie können bis zu
25 eigene Regex-Entitäten pro Regel überlagern (mit einer optionalen
Luhn-Prüfsumme) und die Aktion pro Entität über entity_actions überschreiben.Wird Output-Masking auf streaming Antworten durchgesetzt?
Wird Output-Masking auf streaming Antworten durchgesetzt?
Was kostet der LLM-Judge?
Was kostet der LLM-Judge?
keyword / regex / pii / max_chars-Regeln machen keinen Modellaufruf und
berechnen nichts. Eine llm_judge-Regel führt eine semantische Prüfung durch
ein Workspace-Modell aus (begrenzt durch judge_timeout_ms, standardmäßig
fail-open) und wird als separate Judge-Unterzeile berechnet. Eine
grounding-Regel bewertet die Antwort-Treue gegen die abgerufenen Quellen des
Requests (Schwellenwert-Default 0.7) auf dieselbe Weise.Kann ich sehen, was eine Regel tatsächlich gematcht hat?
Kann ich sehen, was eine Regel tatsächlich gematcht hat?
GET /api/guardrail/match, Member). Jede
Zeile zeichnet Regeltyp, Aktion, Stage und einen Detail-String auf — und den
gematchten Teilstring nur, wenn „Log raw content” an ist für dieses
Guardrail (standardmäßig aus, die datenschutzkonservative Haltung). Falscher
Block? Markieren Sie ihn als False Positive
(POST /api/guardrail/match/:id/mark-fp, Admin).Scannen Sie Abhängigkeiten auf bekannte CVEs?
Scannen Sie Abhängigkeiten auf bekannte CVEs?
block / mask /
flag-Aktionen, die Sie direkt verfassen. Verbinden Sie einen Scanner unter
Integrationen, um es anzutreiben.3. Firewall — Agenten-Aktionen
Wie unterscheidet sich die Firewall von Guardrails bei der Auflösung?
Wie unterscheidet sich die Firewall von Guardrails bei der Auflösung?
firewall_policy_id / guardrail_id) und teilen sich den
Workspace-Default-Fallback. Siehe
Guardrails vs. Firewall.Was sind die Verdikte und Surfaces?
Was sind die Verdikte und Surfaces?
allow, audit, deny, sanitize, pending_approval,
cap_cost. default_verdict ist allow / audit / deny (standardmäßig
audit). Surfaces: inbound (angebotene Tools), response
(modell-ausgegebene tool_calls), mcp (ein tools/call), egress
(ausgehender Host/IP/CIDR). Das
Verdikt-Glossar dekodiert jeden.Bereinigt `sanitize`, was ein Tool zurückgibt?
Bereinigt `sanitize`, was ein Tool zurückgibt?
sanitize-Verdikt
redigiert nur gematchte Teilstrings aus den Tool-Call-Argumenten, nie den
Inhalt, den ein Tool zurückgibt. Auf der inbound-Surface (noch keine
Aufruf-Args) eskaliert sanitize zu einem Deny.Was tun die Autonomie-Stufen?
Was tun die Autonomie-Stufen?
autonomy_*-Zeilen:•
balanced (empfohlener Start) — default audit, deny
destruktive Shell, PII Shield in audit-only (flaggt PII).•
tight — default-deny, deny destruktive Shell, deny SSRF-förmige
Fetch-Tools, PII Shield + Secrets Blocker durchgesetzt.•
permissive — nur observe.Ein-Klick-Undo stellt den vorherigen Zustand aus dem Audit-Snapshot wieder her, den das Apply geschrieben hat. Es ist ein einzelner Schritt — Undo ist nicht mehr verfügbar, sobald ein späteres Apply (oder eine manuelle Policy-Bearbeitung) diesen Snapshot abgelöst hat. Siehe Enforcement-Modes.
Blockiert das SSRF-Preset private IPs und Cloud-Metadaten?
Blockiert das SSRF-Preset private IPs und Cloud-Metadaten?
tight-Autonomie-SSRF-Preset verweigert die üblichen
fetch-förmigen Tool-Namen (http_fetch, web_search, fetch_url,
request). Um nach Ziel zu verweigern — RFC-1918-Bereiche, Cloud-Metadaten-IPs,
bestimmte CIDRs — verfassen Sie Ihre eigene egress-Surface-Host-/CIDR-Deny-
Regel. Kein Preset liefert CIDR-Regeln für Sie. Siehe
Egress & Datenexfiltration.Wie rolle ich eine Policy aus, ohne Traffic zu brechen?
Wie rolle ich eine Policy aus, ohne Traffic zu brechen?
audit herab und stellt dem Grund
[shadow] would … voran. Beobachten Sie die Events- und Runs-Ansichten,
schalten Sie dann Shadow aus, um durchzusetzen. Der Observe-Mode auf
Workspace-Ebene (firewall_observe_mode) ist der komplementäre
Discovery-Regler — er loggt nicht abgedeckte Aufrufe als Lücken in
Discovered Tools.Wie funktioniert die menschliche Freigabe (HITL)?
Wie funktioniert die menschliche Freigabe (HITL)?
pending_approval-Verdikt gibt 400 firewall_approval_pending mit einer
Approval-ID zurück. Ein Prüfer löst es aus der Konsole (Developer+) oder
über einen HMAC-Webhook-Callback auf
(POST /api/v1/firewall/approvals/:id/callback). Der Agent pollt
GET /api/v1/firewall/approvals/:id und reicht den ursprünglichen Aufruf mit
einem einmal nutzbaren X-OrcaRouter-Firewall-Approval-Header erneut ein. Siehe
Gefährliche Tool-Calls.Wonach sucht die Anomalieerkennung?
Wonach sucht die Anomalieerkennung?
retry_loop und novel_path (ein Tool-zu-Tool-Übergang, der
noch nie zuvor gesehen wurde). Der Feed ist Member-lesbar; snoozen Sie eine
Anomalie für bis zu 7 Tage. Siehe
Excessive Agency.4. MCP, Keys & Gateway-Zugriff
Wie werden MCP-Server gesteuert?
Wie werden MCP-Server gesteuert?
name, endpoint, auth_mode von
none/bearer/oauth/basic, verschlüsselte Credentials) und das
MCP-Gateway wertet jeden tools/call auf der mcp-Surface vor dem
Dispatch aus. Health wird verfolgt (ok/degraded/down); proben Sie es
mit POST /api/workspace/firewall/mcp_servers/:id/probe. Eine Probe baselined
auch das angebotene Tool-Schema des Servers — späteres Drift kippt seinen
schema_status von verified auf changed (das „Rug-Pull”-Signal), und Sie
re-baselinen (genehmigen) oder quarantine-en den Server. So ist Governance
Per-Aufruf-Auswertung plus Schema-Integritäts-Tracking und
Skill-Risikobänder. Siehe Firewall-MCP und
MCP-Tool-Poisoning.Was passiert mit einem riskanten oder auto-erkannten Skill?
Was passiert mit einem riskanten oder auto-erkannten Skill?
allow / quarantine / block. Ein
quarantänierter Skill wird für Freigabe zurückgehalten; auto-erkannte Skills
bleiben quarantäniert, bis ein Mensch sie überprüft. Der Mode reitet auf
dem Regel-Verdikt obendrauf.Welche Key-Felder sperren einen Agenten ab?
Welche Key-Felder sperren einen Agenten ab?
model_limits (+ model_limits_enabled), allow_ips,
credit_limit_usd (0 = unbegrenzt), expired_time (-1 = nie),
environment, guardrail_id, firewall_policy_id und
is_firewall_gateway. Kombinieren Sie sie für minimalen Handlungsspielraum
— siehe Scope, Keys & Policies.
Keys werden bei der Anzeige maskiert.Warum erhalte ich 403 auf `/api/v1/firewall/*`?
Warum erhalte ich 403 auf `/api/v1/firewall/*`?
POST /evaluate, POST /evaluate_plan,
ANY /mcp) erfordern einen Key mit is_firewall_gateway=true — ein
dediziertes firewall-gateway-scoped Token, nicht Ihren sk-orca-…-Relay-Key.
Eines zu prägen und sein Klartext zu lesen ist Admin+.Was ist der Unterschied zwischen Konfigurieren und Aufrufen?
Was ist der Unterschied zwischen Konfigurieren und Aufrufen?
/v1/*-Relay-Traffic verwendet einen
sk-orca-…-Key; nur die /api/v1/firewall/*-Gateway-Hooks verwenden das
firewall-gateway-scoped Token.5. Compliance, Residency & Daten
Welche Frameworks sind abgedeckt?
Welche Frameworks sind abgedeckt?
/api/compliance/*.Warum ist Install/Report gegated?
Warum ist Install/Report gegated?
POST /api/compliance/packs/:key/install) materialisiert echte
Guardrails + Firewall-Policies, die Sie dann bearbeiten können.Sind die Compliance-Reports verifizierbar?
Sind die Compliance-Reports verifizierbar?
GET /api/public/compliance/pubkey), verifizieren Sie
einen Report (POST /api/public/compliance/verify) oder übergeben Sie einem
Auditor einen Share-Link (GET /api/public/compliance/share/:token). Exporte
sind CSV / JSON / PDF.Was pinnt Data-Residency tatsächlich?
Was pinnt Data-Residency tatsächlich?
us, eu,
uk, ap, cn, global), setzbar über PUT /api/compliance/residency
(Admin); ein Cross-Region-Lesevorgang wird zurückgehalten. Es ist kein
Geo-Pinning Ihrer Inferenzdaten. Siehe
Shared Responsibility.Wie lange werden Logs aufbewahrt, und wie lasse ich Daten löschen?
Wie lange werden Logs aufbewahrt, und wie lasse ich Daten löschen?
