KI-Agenten mit OrcaRouter absichern

Ein KI-Agent ist kein Chatbot. Er liest nicht vertrauenswürdige Webseiten, ruft Tools auf, gibt Geld aus, erreicht interne Hosts und lädt Fähigkeiten, die er zur Laufzeit gefunden hat. Jede dieser Aktionen hat reale Konsequenzen, und die meisten davon passieren ohne einen Menschen in der Schleife. OrcaRouter sitzt auf dem Pfad zwischen Ihrem Agenten und jedem Modell, das er aufruft. Damit ist es der einzige Ort, der jeden Request und jede Antwort sieht — sowie jeden Tool-Call und jedes ausgehende Ziel, das Ihr Agent darüber leitet — unabhängig davon, welcher Anbieter ihn bedient hat. Dieser Engpass ist der richtige Ort für Zero-Trust-Durchsetzung. Sie konfigurieren ihn einmalig in Ihrem Workspace; Ihr Agent ruft weiterhin https://api.orcarouter.ai/v1 exakt wie zuvor auf.

1. Die Bedrohung: Agenten handeln, sie chatten nicht nur

Sicherheit auf Prompt-Ebene wurde für Chat entwickelt. Sie setzt voraus, dass das Modell Text produziert und ein Mensch ihn liest. Agenten brechen diese Annahme:

Sie nehmen nicht vertrauenswürdige Inhalte auf — eine Webseite, ein abgerufenes Dokument, ein Tool-Ergebnis — die Anweisungen tragen können (Prompt-Injection).
Sie rufen Tools auf — shell.exec, db.query, eine Payment-API — die irreversible Dinge tun.
Sie erreichen das Netzwerk — abrufen von URLs, die ein Angreifer auf interne Dienste oder Exfiltrations-Endpunkte lenken kann.
Sie erweitern sich selbst — installieren Skills, Plugins und MCP-Server, die Sie nie überprüft haben.

Nichts davon ist für einen Content-Filter sichtbar, der nur den Prompt liest. Einen Agenten absichern bedeutet, Identität, Inhalte, Aktionen und das Netzwerk zu kontrollieren und einen Audit-Trail von allem zu führen.

2. Der Control-Stack

OrcaRouter wendet vier Ebenen auf jeden Request an. Jede ist unabhängig, workspace-bezogen und hängt sich mit keiner Code-Änderung an einen API-Key.

Scoped Keys

Identität mit minimalem Handlungsspielraum. Gebunden an bestimmte Modelle, IPs, ein Ausgabenlimit, ein Ablaufdatum und exakt die Guardrail- plus Firewall-Policy, die gilt.

Guardrails

Inhaltskontrolle. Prompts und Antworten prüfen — PII, Secrets, Injection und unsichere Ausgaben blockieren, maskieren oder markieren.

Agent-Firewall

Aktionskontrolle. Tool-Allowlists, Tool-Call-Argumente validieren und bereinigen, zur Freigabe zurückhalten sowie Egress und Kosten begrenzen.

Audit

Zurechenbarkeit. Jeder Match, jedes Verdikt und jede Freigabe wird geloggt und dem Agentenlauf zugeordnet, der sie ausgelöst hat.

Ein Request fließt der Reihe nach durch alle Ebenen: Der Schlüssel entscheidet, ob der Aufruf überhaupt erlaubt ist und welche Policies gelten; Guardrails prüfen den Eingabetext; das Modell läuft; die Firewall beurteilt alle Tool-Calls und ausgehenden Ziele; Guardrails prüfen die Ausgabe; und jede Entscheidung landet im Audit-Trail. Den vollständigen Pfad beschreibt Der Control-Stack.

3. Warum „Zero Trust”

Zero Trust bedeutet, dass kein Request aufgrund seiner Herkunft vertraut wird. Ein Tool-Call wird daran gemessen, was er ist, nicht daran, dass Ihr eigener Agent ihn ausgestellt hat — denn der Agent könnte auf Basis injizierter Anweisungen handeln, die er von einer nicht vertrauenswürdigen Seite gelesen hat. OrcaRouter setzt dies durch Standard-Deny auf den wichtigen Aktionen und explizite Allowlists für die beabsichtigten. Warum KI-Agenten Zero Trust brauchen beschreibt das Modell im Detail.

4. Alles lebt im Gateway

Der Control-Stack wird in Ihrem Workspace konfiguriert und am Gateway durchgesetzt, nicht in Ihrer Anwendung:

Einmal anhängen, überall wirksam. Binden Sie ein Guardrail und eine Firewall-Policy an einen API-Key; jeder Aufruf dieses Keys wird geprüft. Bearbeiten Sie die Policy, und jeder angehängte Key wechselt beim nächsten Request.
Kein Redeploy, keine SDK-Änderung. Ihr Agent gibt weiterhin dieselben OpenAI-förmigen Aufrufe ab. Die Durchsetzung ist unsichtbar, bis eine Regel auslöst.
Anbieterunabhängig. Dieselbe Policy gilt für GPT, Claude, Gemini und den Rest — sie prüft Text und Aktionen, nicht die Modellwahl.

Die Konfiguration ist rollengesteuert in Ihrem Workspace. Policies und Einstellungen lesen ist für jedes Mitglied offen; die Firewall-Feeds Events und Runs erfordern die Rolle Developer; Guardrails, Firewall-Policies und Schlüssel erstellen oder ändern erfordert Developer; Compliance- und Gateway-Key-Änderungen erfordern Admin. In der gesamten Dokumentation vermerkt jeder Konfigurationsschritt die benötigte Rolle.

5. Der schnelle Weg: ein einziger Schalter

Sie müssen keine Regeln verfassen, um geschützt zu sein. Ein Autonomie-Level setzt Ihre gesamte Firewall- und Guardrails-Haltung in einem einzigen Schritt mit Ein-Klick-Undo:

Level	Was Sie bekommen
`tight`	Standard-Deny; blockiert destruktive Tools und SSRF-Egress; PII + Secrets-Guardrails aktiv.
`balanced`	Standardmäßig auditieren, destruktive Shell verweigern, PII markieren. Die empfohlene Ausgangshaltung.
`permissive`	Nichts wird durchgesetzt, aber alles beobachtet, sodass Sie das Verhalten Ihres Agenten trotzdem sehen.

Dies ist die Secure-Agents-Baseline — starten Sie dort, beobachten Sie, was Ihre Agenten tatsächlich tun, und verschärfen Sie dann.

6. Weiterführende Themen

Quickstart

Zero Trust in 5 Minuten aktivieren.

Warum Zero Trust

Das Bedrohungsmodell hinter dem Design.

Guardrails vs. Firewall

Welche Ebene welche Bedrohung abfängt.

Was in Ihrer Verantwortung liegt

Was das Gateway absichert und was Ihnen bleibt.

Warum Zero Trust

​1. Die Bedrohung: Agenten handeln, sie chatten nicht nur

​2. Der Control-Stack

Scoped Keys

Guardrails

Agent-Firewall

Audit

​3. Warum „Zero Trust”

​4. Alles lebt im Gateway

​5. Der schnelle Weg: ein einziger Schalter

​6. Weiterführende Themen

Quickstart

Warum Zero Trust

Guardrails vs. Firewall

Was in Ihrer Verantwortung liegt

1. Die Bedrohung: Agenten handeln, sie chatten nicht nur

2. Der Control-Stack

3. Warum „Zero Trust”

4. Alles lebt im Gateway

5. Der schnelle Weg: ein einziger Schalter

6. Weiterführende Themen