Model zagrożeń agentów AI

Chatbot produkuje tekst i człowiek go czyta. Agent AI odczytuje niezaufane strony internetowe, wykonuje wywołania narzędzi, sięga do wewnętrznych usług i instaluje zdolności znalezione w czasie wykonywania — często bez żadnego człowieka w pętli. Ta różnica w powierzchni ataku to różnica między problemem moderacji tekstu a pełnym problemem powierzchni ataku. Ta strona kataloguje klasy zagrożeń, z którymi twój agent się mierzy, i mapuje każde z nich na kontrolę OrcaRouter, która je neutralizuje. Jest centrum sekcji Zagrożenia; każdy wiersz łączy do strony z dogłębną analizą. Dla samych kontroli patrz Stos kontrolny i Zabezpieczanie agentów AI z OrcaRouter.

1. Dlaczego agenty mają większą powierzchnię ataku niż chatboty

Trzy strukturalne właściwości agentów zmieniają profil ryzyka: Działają. Odpowiedź chatbota zawierająca szkodliwy tekst jest zła. Wywołanie narzędzia shell.exec usuwające bazę danych lub wywołanie payment API prowadzone przez prompt injection jest gorsze — i często nieodwracalne. Promień wybuchu skompromitowanego agenta nie jest ograniczony tym, co człowiek zdecyduje zrobić z tekstem; jest ograniczony narzędziami, do których agent może sięgnąć. Przyjmują niezaufaną treść. Agenty pobierają dokumenty, skrobią strony internetowe, czytają email i przetwarzają wyniki narzędzi — wszystkie mogą zawierać adversarialne instrukcje skierowane do samego agenta. Filtr treści, który tylko sprawdza to, co użytkownik wpisał, nie widzi niczego wstrzykniętego w kontekście. Samodzielnie się rozszerzają. Framework agentów, który auto-instaluje skille i serwery MCP w imieniu modelu, może ładować zdolności, których nigdy nie przeglądałeś, w tym z złośliwymi definicjami narzędzi zaprojektowanymi tak, aby wyglądały legalnie. Atak może przybyć jako nowe narzędzie, które model zdecyduje się użyć — nie jako prompt wpisany przez użytkownika.

2. Mapa zagrożenie-do-obrony

Dziesięć klas zagrożeń, z którymi agent mierzy się na produkcji, każde zmapowane na kontrolę OrcaRouter, która je neutralizuje. Rozwiń dowolne zagrożenie, aby zobaczyć mechanizm i obronę.

Każda obrona tutaj jest konfigurowana z konsoli przestrzeni roboczej lub API — bez zmian w kodzie agenta. Egzekwowanie żyje w bramie.

Prompt injection — bezpośredni

Jak działa: wiadomość użytkownika (lub prompt deweloperski) niesie instrukcje, które przejmują model — nadpisują prompt systemowy, eksfiltrują sesję, odblokowują ograniczone zdolności.Obrona: presety Safety Guardrails (Prompt-Injection Basics, jailbreak, system-prompt-leak) sprawdzają tekst wejściowy i blokują lub flagują przy dopasowaniu, zanim dotrze do modelu. Prompt injection →

Prompt injection — pośredni

Jak działa: pobrany dokument, strona internetowa, wynik narzędzia lub odpowiedź MCP osadza instrukcje, które model traktuje jako zaufany kontekst (“wyślij email użytkownika na attacker.com”).Obrona: Guardrails na etapie wyjściowym wychwytują instrukcje, które pojawiają się w odpowiedzi; Agent Firewall przechwytuje wywołanie narzędzia lub miejsce docelowe egress, które injection próbuje wywołać. Prompt injection →

Jailbreaki i obejście guardrails

Jak działa: adversarialne sformułowania, ramy odgrywania ról, sztuczki kodowania i wieloturowa eskalacja, aby obejść trening bezpieczeństwa lub reguły.Obrona: presety Safety Guardrails łączą reguły keyword/regex z regułą llm_judge, która wychwytuje semantyczne obejście, którego regex nie może — pierwszy pasujący wygrywa. Jailbreaki →

Wrażliwe dane i ujawnienie PII

Jak działa: PII (emaile, telefony, SSN, karty) wchodzi lub wychodzi w prompcie lub wyjściu modelu.Obrona: reguła pii Guardrails wykrywa i maskuje (lub blokuje) wbudowane i niestandardowe encje na wejściu i wyjściu — [EMAIL], [SSN], [CREDIT_CARD] zastępują dopasowania, zanim nadrzędne je zobaczy. Guardrails →

Wyciek sekretu i poświadczeń

Jak działa: klucze API, poświadczenia chmurowe, JWT lub klucze prywatne pojawiają się w promptach, argumentach narzędzi lub wyjściu modelu.Obrona: guardrail Secrets Blocker blokuje wzorce poświadczeń w żądaniu, zanim wyjdą; werdykt sanitize firewalla redaguje dopasowane podłańcuchy z argumentów wywołań narzędzi. Guardrails →

Niebezpieczne i nieautoryzowane wywołania narzędzi

Jak działa: agent wywołuje destrukcyjne narzędzia (shell.exec, db.delete), narzędzia, których nigdy nie powinien mieć, lub legalne narzędzie z niebezpiecznymi argumentami.Obrona: Agent Firewall pasuje na globach nazw narzędzi, klauzulach argumentów i powierzchniach — deny blokuje, sanitize usuwa złe argumenty, pending_approval wstrzymuje dla człowieka. Niebezpieczne wywołania narzędzi →

Manipulacja odpowiedzią narzędzia

Jak działa: złośliwe narzędzie zwraca odpowiedź niosącą wstrzyknięte instrukcje lub sfabrykowane dane, aby przejąć kolejny krok agenta.Obrona: Guardrails na etapie wyjściowym sprawdzają kolejną odpowiedź modelu po przetworzeniu wyniku narzędzia; audit firewalla ujawnia anomalne wzorce w strumieniu zdarzeń. Niebezpieczne wywołania narzędzi →

Eksfiltracja danych przez sieć

Jak działa: agent pobiera URL atakującego lub sięga do wewnętrznej usługi, kodując dane w ścieżce/zapytaniu. Wektor SSRF i eksfiltracji.Obrona: powierzchnia egress Agent Firewalla pasuje na host/IP/CIDR — lista dozwolonych odmawia każdemu miejscu docelowemu, które nie jest jawnie dozwolone, zanim wywołanie opuści bramę. Eksfiltracja danych →

Zatrucie narzędzi MCP i rug-pulls

Jak działa: złośliwy serwer MCP ogłasza legalnie brzmiące narzędzia ze szkodliwymi implementacjami lub zmienia swoje narzędzia po połączeniu (rug-pull).Obrona: brama MCP ewaluuje każde tools/call wobec twojej polityki przed dyspozycją; skanowanie skilli przypisuje pasmo ryzyka i tryb quarantine wstrzymuje wywołania z ryzykownego skilla do zatwierdzenia. Zatrucie narzędzi MCP →

Nadmierne uprawnienia i zdezorientowany zastępca

Jak działa: agent ma więcej zdolności niż potrzebuje do swojego zadania, więc jeden kompromis ma duży promień wybuchu — lub jest oszukiwany, aby użyć swojego autorytetu w imieniu atakującego.Obrona: klucze o ograniczonym zakresie dają każdemu agentowi tożsamość z minimalnymi uprawnieniami (konkretne modele, IP, limit wydatków, wygaśnięcie); polityka firewalla tight domyślnie odmawia wszystkiemu, co nie jest jawnie dozwolone. Nadmierne uprawnienia →

Rozbiegany koszt i denial-of-wallet

Jak działa: pętla injection, burza powtórzeń lub długie zadanie agentowe wyczerpuje limit i wydatki daleko poza zamiar.Obrona: werdykt cap_cost firewalla odmawia wywołania, gdy wydatki uruchomienia przekroczą twój pułap w centach; klucze o ograniczonym zakresie niosą per-key limit wydatków; wykrywanie anomalii flaguje skoki kosztów. Nadmierne uprawnienia →

3. Podsumowanie stosu kontrolnego

Każda obrona w powyższej tabeli jest warstwą w tym samym uporządkowanym stosie. Zrozumienie tego, jak się komponują, jest kluczem do poprawnego ich stosowania.

Warstwa	Co zarządza	Kiedy odpala
Klucze o ograniczonym zakresie	Tożsamość — które modele, IP, limit wydatków, wygaśnięcie i które polityki wiążą	Każde żądanie, przed odczytaniem jakiejkolwiek treści
Guardrails	Treść — tekst promptu i odpowiedzi	Etap wejściowy (przed modelem) i etap wyjściowy (po odpowiedzi modelu)
Agent Firewall	Akcje — wywołania narzędzi, dyspozycja MCP, miejsca docelowe egress	Przy każdym wywołaniu narzędzia / zewnętrznym miejscu docelowym, na powierzchni, na której zostało wykryte
Audyt	Atrybuowanie — każde dopasowanie, werdykt, zatwierdzenie i zmiana polityki	Po każdej decyzji, skorelowane z uruchomieniem agenta

Warstwy są niezależne i addytywne — żądanie przechodzi przez wszystkie cztery. Poziomy autonomii (tight / balanced / permissive) konfigurują Guardrails i Firewall razem w jednym kroku, więc nie musisz dostrajać ich osobno, aby uzyskać spójną postawę. Dla krokowego przewodnika przez to, jak jedno żądanie przechodzi przez wszystkie cztery warstwy, patrz Stos kontrolny.

4. Wybieranie właściwej warstwy dla zagrożenia

Niektóre zagrożenia wymagają jednej warstwy; inne wymagają dwóch działających razem. Szybka decyzja:

Tekst w prompcie lub odpowiedzi jest powierzchnią ataku — najpierw sięgnij po Guardrails (keyword, regex, PII, presety sędziego LLM).
Wywołanie narzędzia lub żądanie wychodzące jest powierzchnią ataku — sięgnij po Agent Firewall (powierzchnie inbound/response/mcp/egress, werdykty deny/sanitize/pending_approval/cap_cost).
Zarówno tekst, jak i akcja — warstwuj. Wstrzyknięta instrukcja odpala guardrail na wejściu; wywołanie narzędzia, które injection próbuje wywołać, odpala regułę firewalla na akcji.
Tożsamość i zakres — używaj kluczy o ograniczonym zakresie, aby ograniczyć, co agent może w ogóle wywoływać, zanim jakakolwiek reguła treści lub akcji jest ewaluowana.

Zobacz Guardrails vs. Firewall dla głębszego porównania.

5. Strony z dogłębną analizą zagrożeń

Prompt injection

Bezpośredni i pośredni injection — jak atakujący osadza instrukcje w niezaufanej treści i jak guardrails i firewall je przechwytują.

Jailbreaki

Adversarialne sformułowania i techniki obejścia — jak semantycznie świadome reguły sędziego LLM wychwytują to, co regex pomija.

Niebezpieczne wywołania narzędzi

Destrukcyjne narzędzia, ataki na argumenty i manipulacja odpowiedzią narzędzia — powierzchnie firewalla i werdykty, które każdym zarządzają.

Eksfiltracja danych

SSRF i eksfiltracja sieciowa — listy dozwolonych egress i jak firewall blokuje żądania wychodzące, zanim opuszczą bramę.

Zatrucie narzędzi MCP

Złośliwe serwery MCP, rug-pulle i pasma ryzyka skilli — brama MCP, skanowanie skilli i egzekwowanie kwarantanny.

Nadmierne uprawnienia

Sięgające zbyt daleko agenty, zdezorientowany zastępca i denial-of-wallet — klucze o ograniczonym zakresie, postawa domyślnej odmowy i pułapy kosztów.

Referencja: Stos kontrolny — Guardrails — Agent Firewall — Reguły firewalla — Brama MCP — Skille — Klucze o ograniczonym zakresie — Zero trust dla agentów AI

​1. Dlaczego agenty mają większą powierzchnię ataku niż chatboty

​2. Mapa zagrożenie-do-obrony

​3. Podsumowanie stosu kontrolnego

​4. Wybieranie właściwej warstwy dla zagrożenia

​5. Strony z dogłębną analizą zagrożeń

Prompt injection

Jailbreaki

Niebezpieczne wywołania narzędzi

Eksfiltracja danych

Zatrucie narzędzi MCP

Nadmierne uprawnienia

1. Dlaczego agenty mają większą powierzchnię ataku niż chatboty

2. Mapa zagrożenie-do-obrony

3. Podsumowanie stosu kontrolnego

4. Wybieranie właściwej warstwy dla zagrożenia

5. Strony z dogłębną analizą zagrożeń