Zabezpieczanie agentów AI z OrcaRouter

Agent AI to nie chatbot. Odczytuje niezaufane strony internetowe, wywołuje narzędzia, wydaje środki, sięga do wewnętrznych hostów i ładuje zdolności znalezione w czasie wykonywania. Każda z tych rzeczy jest akcją o rzeczywistych konsekwencjach, a większość z nich dzieje się bez udziału człowieka. OrcaRouter siedzi na ścieżce między twoim agentem a każdym modelem, który wywołuje, więc jest jedynym miejscem, które widzi każde żądanie i odpowiedź — oraz każde wywołanie narzędzia i zewnętrzny cel, który twój agent przez niego kieruje — niezależnie od tego, który dostawca go obsłużył. Ten punkt zwężenia jest właściwym miejscem dla egzekwowania zero trust. Konfigurujesz go raz w swojej przestrzeni roboczej; twój agent dalej woła https://api.orcarouter.ai/v1 dokładnie jak wcześniej.

1. Zagrożenie: agenty działają, a nie tylko rozmawiają

Bezpieczeństwo na poziomie promptu zostało zbudowane dla czatu. Zakłada, że model produkuje tekst, a człowiek go czyta. Agenty obalają to założenie:

Przyjmują niezaufane treści — stronę internetową, pobrany dokument, wynik narzędzia — które mogą zawierać instrukcje (prompt injection).
Wywołują narzędzia — shell.exec, db.query, payment API — które robią nieodwracalne rzeczy.
Sięgają do sieci — pobierając URL-e, które atakujący może skierować ku wewnętrznym usługom lub endpointom eksfiltracji.
Samodzielnie się rozszerzają — instalując skille, wtyczki i serwery MCP, których nigdy nie przeglądałeś.

Żadne z tych zjawisk nie jest widoczne dla filtra treści, który czyta tylko prompt. Zabezpieczenie agenta oznacza kontrolowanie tożsamości, treści, akcji i sieci oraz prowadzenie śladu audytu dla wszystkich tych elementów.

2. Stos kontrolny

OrcaRouter stosuje cztery warstwy do każdego żądania. Każda jest niezależna, ma zakres przestrzeni roboczej i dołącza do klucza API bez zmiany w kodzie.

Klucze o ograniczonym zakresie

Tożsamość z zasadą minimalnych uprawnień. Powiązana z konkretnymi modelami, IP, limitem wydatków, datą wygaśnięcia i dokładną polityką guardrail + firewall, która ma zastosowanie.

Guardrails

Kontrola treści. Sprawdzaj prompty i odpowiedzi — blokuj, maskuj lub flaguj PII, sekrety, injection i niebezpieczne wyjście.

Agent Firewall

Kontrola akcji. Lista dozwolonych narzędzi, waliduj i oczyszczaj argumenty wywołań narzędzi, wstrzymuj do zatwierdzenia, ogranicz egress i koszt.

Audyt

Atrybuowanie. Każde dopasowanie, werdykt i zatwierdzenie jest logowane i korelowane z uruchomieniem agenta, które je spowodowało.

Żądanie przepływa przez nie w kolejności: klucz decyduje, czy wywołanie jest w ogóle dozwolone i które polityki wiążą; guardrails sprawdzają tekst wejściowy; uruchamia się model; firewall ocenia wywołania narzędzi i zewnętrzne cele; guardrails sprawdzają wyjście; a każda decyzja ląduje w śladzie audytu. Zobacz Stos kontrolny dla pełnej ścieżki.

3. Dlaczego „zero trust”

Zero trust oznacza, że żadne żądanie nie jest zaufane na podstawie tego, skąd pochodzi. Wywołanie narzędzia jest oceniane według tego, czym jest, nie na podstawie faktu, że twój własny agent je wydał — ponieważ agent może działać na wstrzykniętych instrukcjach, które odczytał z niezaufanej strony. OrcaRouter egzekwuje to przez domyślną odmowę dla akcji, które mają znaczenie, i wyraźne listy dozwolonych dla tych, które zamierzasz. Dlaczego agenty AI potrzebują zero trust omawia ten model w szczegółach.

4. Wszystko żyje w bramie

Stos kontrolny jest konfigurowany w twojej przestrzeni roboczej i egzekwowany w bramie, nie w twojej aplikacji:

Dołącz raz, obowiązuje wszędzie. Powiąż guardrail i politykę firewalla z kluczem API; każde wywołanie tego klucza jest sprawdzane. Edytuj politykę, a każdy powiązany klucz zmienia się przy następnym żądaniu.
Bez ponownego wdrożenia, bez zmian SDK. Twój agent dalej wydaje te same wywołania w formacie OpenAI. Egzekwowanie jest niewidoczne, dopóki reguła nie odpali.
Niezależne od dostawcy. Ta sama polityka jedzie po GPT, Claude, Gemini i reszcie — sprawdza tekst i akcje, nie wybór modelu.

Konfiguracja jest bramkowana rolami w twojej przestrzeni roboczej. Odczyt polityk i ustawień jest otwarty dla każdego członka; strumienie Events i Runs firewalla wymagają roli Developer; tworzenie lub zmiana guardrails, polityk firewalla i kluczy wymaga Developer; zmiany dotyczące zgodności i kluczy gateway wymagają Admin. W tych dokumentach każdy krok konfiguracji oznacza wymaganą rolę.

5. Szybka ścieżka: jeden przełącznik

Nie musisz tworzyć reguł, aby być chroniony. Poziom autonomii ustawia całą postawę Firewall i Guardrails w jednym kroku, z jednym kliknięciem cofnięcia:

Poziom	Co otrzymujesz
`tight`	Domyślna odmowa; blokuje destrukcyjne narzędzia i egress SSRF; guardrails PII + sekrety włączone.
`balanced`	Domyślnie audytuje, odmawia destrukcyjnego shella, flaguje PII. Rekomendowana postawa początkowa.
`permissive`	Nic nie jest egzekwowane, ale wszystko jest obserwowane, więc i tak widzisz zachowanie swojego agenta.

To jest baza Secure Agents — zacznij tam, obserwuj, co twoje agenty faktycznie robią, potem zaostrzaj.

6. Co dalej

Szybki start

Włącz zero trust w 5 minut.

Dlaczego zero trust

Model zagrożeń stojący za projektem.

Guardrails vs. Firewall

Która warstwa wychwytuje które zagrożenie.

Za co jesteś odpowiedzialny

Co zabezpiecza brama, a co pozostaje twoje.

Dlaczego zero trust

​1. Zagrożenie: agenty działają, a nie tylko rozmawiają

​2. Stos kontrolny

Klucze o ograniczonym zakresie

Guardrails

Agent Firewall

Audyt

​3. Dlaczego „zero trust”

​4. Wszystko żyje w bramie

​5. Szybka ścieżka: jeden przełącznik

​6. Co dalej

Szybki start

Dlaczego zero trust

Guardrails vs. Firewall

Za co jesteś odpowiedzialny

1. Zagrożenie: agenty działają, a nie tylko rozmawiają

2. Stos kontrolny

3. Dlaczego „zero trust”

4. Wszystko żyje w bramie

5. Szybka ścieżka: jeden przełącznik

6. Co dalej