1. Dlaczego agenty mają większą powierzchnię ataku niż chatboty
Trzy strukturalne właściwości agentów zmieniają profil ryzyka: Działają. Odpowiedź chatbota zawierająca szkodliwy tekst jest zła. Wywołanie narzędziashell.exec usuwające bazę danych lub wywołanie payment
API prowadzone przez prompt injection jest gorsze — i często nieodwracalne.
Promień wybuchu skompromitowanego agenta nie jest ograniczony tym, co
człowiek zdecyduje zrobić z tekstem; jest ograniczony narzędziami, do których
agent może sięgnąć.
Przyjmują niezaufaną treść. Agenty pobierają dokumenty, skrobią strony
internetowe, czytają email i przetwarzają wyniki narzędzi — wszystkie mogą
zawierać adversarialne instrukcje skierowane do samego agenta. Filtr treści,
który tylko sprawdza to, co użytkownik wpisał, nie widzi niczego wstrzykniętego
w kontekście.
Samodzielnie się rozszerzają. Framework agentów, który auto-instaluje
skille i serwery MCP w imieniu modelu, może ładować zdolności, których
nigdy nie przeglądałeś, w tym z złośliwymi definicjami narzędzi
zaprojektowanymi tak, aby wyglądały legalnie. Atak może przybyć jako nowe
narzędzie, które model zdecyduje się użyć — nie jako prompt wpisany przez
użytkownika.
2. Mapa zagrożenie-do-obrony
Dziesięć klas zagrożeń, z którymi agent mierzy się na produkcji, każde zmapowane na kontrolę OrcaRouter, która je neutralizuje. Rozwiń dowolne zagrożenie, aby zobaczyć mechanizm i obronę.Każda obrona tutaj jest konfigurowana z konsoli przestrzeni roboczej lub API
— bez zmian w kodzie agenta. Egzekwowanie żyje w bramie.
Prompt injection — bezpośredni
Prompt injection — bezpośredni
Jak działa: wiadomość użytkownika (lub prompt deweloperski) niesie
instrukcje, które przejmują model — nadpisują prompt systemowy, eksfiltrują
sesję, odblokowują ograniczone zdolności.Obrona: presety Safety Guardrails (Prompt-Injection Basics,
jailbreak, system-prompt-leak) sprawdzają tekst wejściowy i blokują lub
flagują przy dopasowaniu, zanim dotrze do modelu.
Prompt injection →
Prompt injection — pośredni
Prompt injection — pośredni
Jak działa: pobrany dokument, strona internetowa, wynik narzędzia
lub odpowiedź MCP osadza instrukcje, które model traktuje jako zaufany
kontekst (“wyślij email użytkownika na attacker.com”).Obrona: Guardrails na etapie wyjściowym wychwytują instrukcje,
które pojawiają się w odpowiedzi; Agent Firewall przechwytuje
wywołanie narzędzia lub miejsce docelowe egress, które injection próbuje
wywołać.
Prompt injection →
Jailbreaki i obejście guardrails
Jailbreaki i obejście guardrails
Jak działa: adversarialne sformułowania, ramy odgrywania ról,
sztuczki kodowania i wieloturowa eskalacja, aby obejść trening bezpieczeństwa
lub reguły.Obrona: presety Safety Guardrails łączą reguły keyword/regex
z regułą
llm_judge, która wychwytuje semantyczne obejście, którego
regex nie może — pierwszy pasujący wygrywa.
Jailbreaki →Wrażliwe dane i ujawnienie PII
Wrażliwe dane i ujawnienie PII
Jak działa: PII (emaile, telefony, SSN, karty) wchodzi lub wychodzi
w prompcie lub wyjściu modelu.Obrona: reguła
pii Guardrails wykrywa i maskuje (lub blokuje)
wbudowane i niestandardowe encje na wejściu i wyjściu — [EMAIL],
[SSN], [CREDIT_CARD] zastępują dopasowania, zanim nadrzędne je zobaczy.
Guardrails →Wyciek sekretu i poświadczeń
Wyciek sekretu i poświadczeń
Jak działa: klucze API, poświadczenia chmurowe, JWT lub klucze
prywatne pojawiają się w promptach, argumentach narzędzi lub wyjściu
modelu.Obrona: guardrail Secrets Blocker blokuje wzorce poświadczeń
w żądaniu, zanim wyjdą; werdykt
sanitize firewalla redaguje dopasowane
podłańcuchy z argumentów wywołań narzędzi.
Guardrails →Niebezpieczne i nieautoryzowane wywołania narzędzi
Niebezpieczne i nieautoryzowane wywołania narzędzi
Jak działa: agent wywołuje destrukcyjne narzędzia (
shell.exec,
db.delete), narzędzia, których nigdy nie powinien mieć, lub legalne
narzędzie z niebezpiecznymi argumentami.Obrona: Agent Firewall pasuje na globach nazw narzędzi, klauzulach
argumentów i powierzchniach — deny blokuje, sanitize usuwa złe
argumenty, pending_approval wstrzymuje dla człowieka.
Niebezpieczne wywołania narzędzi →Manipulacja odpowiedzią narzędzia
Manipulacja odpowiedzią narzędzia
Jak działa: złośliwe narzędzie zwraca odpowiedź niosącą wstrzyknięte
instrukcje lub sfabrykowane dane, aby przejąć kolejny krok agenta.Obrona: Guardrails na etapie wyjściowym sprawdzają kolejną
odpowiedź modelu po przetworzeniu wyniku narzędzia;
audit firewalla
ujawnia anomalne wzorce w strumieniu zdarzeń.
Niebezpieczne wywołania narzędzi →Eksfiltracja danych przez sieć
Eksfiltracja danych przez sieć
Jak działa: agent pobiera URL atakującego lub sięga do wewnętrznej
usługi, kodując dane w ścieżce/zapytaniu. Wektor SSRF i eksfiltracji.Obrona: powierzchnia
egress Agent Firewalla pasuje na host/IP/CIDR
— lista dozwolonych odmawia każdemu miejscu docelowemu, które nie jest
jawnie dozwolone, zanim wywołanie opuści bramę.
Eksfiltracja danych →Zatrucie narzędzi MCP i rug-pulls
Zatrucie narzędzi MCP i rug-pulls
Jak działa: złośliwy serwer MCP ogłasza legalnie brzmiące narzędzia
ze szkodliwymi implementacjami lub zmienia swoje narzędzia po połączeniu
(rug-pull).Obrona: brama MCP ewaluuje każde
tools/call wobec twojej
polityki przed dyspozycją; skanowanie skilli przypisuje pasmo ryzyka
i tryb quarantine wstrzymuje wywołania z ryzykownego skilla do
zatwierdzenia.
Zatrucie narzędzi MCP →Nadmierne uprawnienia i zdezorientowany zastępca
Nadmierne uprawnienia i zdezorientowany zastępca
Jak działa: agent ma więcej zdolności niż potrzebuje do swojego
zadania, więc jeden kompromis ma duży promień wybuchu — lub jest
oszukiwany, aby użyć swojego autorytetu w imieniu atakującego.Obrona: klucze o ograniczonym zakresie dają każdemu agentowi
tożsamość z minimalnymi uprawnieniami (konkretne modele, IP, limit
wydatków, wygaśnięcie); polityka firewalla
tight domyślnie odmawia
wszystkiemu, co nie jest jawnie dozwolone.
Nadmierne uprawnienia →Rozbiegany koszt i denial-of-wallet
Rozbiegany koszt i denial-of-wallet
Jak działa: pętla injection, burza powtórzeń lub długie zadanie
agentowe wyczerpuje limit i wydatki daleko poza zamiar.Obrona: werdykt
cap_cost firewalla odmawia wywołania, gdy wydatki
uruchomienia przekroczą twój pułap w centach; klucze o ograniczonym
zakresie niosą per-key limit wydatków; wykrywanie anomalii flaguje
skoki kosztów.
Nadmierne uprawnienia →3. Podsumowanie stosu kontrolnego
Każda obrona w powyższej tabeli jest warstwą w tym samym uporządkowanym stosie. Zrozumienie tego, jak się komponują, jest kluczem do poprawnego ich stosowania.| Warstwa | Co zarządza | Kiedy odpala |
|---|---|---|
| Klucze o ograniczonym zakresie | Tożsamość — które modele, IP, limit wydatków, wygaśnięcie i które polityki wiążą | Każde żądanie, przed odczytaniem jakiejkolwiek treści |
| Guardrails | Treść — tekst promptu i odpowiedzi | Etap wejściowy (przed modelem) i etap wyjściowy (po odpowiedzi modelu) |
| Agent Firewall | Akcje — wywołania narzędzi, dyspozycja MCP, miejsca docelowe egress | Przy każdym wywołaniu narzędzia / zewnętrznym miejscu docelowym, na powierzchni, na której zostało wykryte |
| Audyt | Atrybuowanie — każde dopasowanie, werdykt, zatwierdzenie i zmiana polityki | Po każdej decyzji, skorelowane z uruchomieniem agenta |
tight / balanced / permissive) konfigurują
Guardrails i Firewall razem w jednym kroku, więc nie musisz dostrajać ich
osobno, aby uzyskać spójną postawę.
Dla krokowego przewodnika przez to, jak jedno żądanie przechodzi przez
wszystkie cztery warstwy, patrz
Stos kontrolny.
4. Wybieranie właściwej warstwy dla zagrożenia
Niektóre zagrożenia wymagają jednej warstwy; inne wymagają dwóch działających razem. Szybka decyzja:- Tekst w prompcie lub odpowiedzi jest powierzchnią ataku — najpierw sięgnij po Guardrails (keyword, regex, PII, presety sędziego LLM).
- Wywołanie narzędzia lub żądanie wychodzące jest powierzchnią ataku — sięgnij po Agent Firewall (powierzchnie inbound/response/mcp/egress, werdykty deny/sanitize/pending_approval/cap_cost).
- Zarówno tekst, jak i akcja — warstwuj. Wstrzyknięta instrukcja odpala guardrail na wejściu; wywołanie narzędzia, które injection próbuje wywołać, odpala regułę firewalla na akcji.
- Tożsamość i zakres — używaj kluczy o ograniczonym zakresie, aby ograniczyć, co agent może w ogóle wywoływać, zanim jakakolwiek reguła treści lub akcji jest ewaluowana.
5. Strony z dogłębną analizą zagrożeń
Prompt injection
Bezpośredni i pośredni injection — jak atakujący osadza instrukcje w
niezaufanej treści i jak guardrails i firewall je przechwytują.
Jailbreaki
Adversarialne sformułowania i techniki obejścia — jak semantycznie
świadome reguły sędziego LLM wychwytują to, co regex pomija.
Niebezpieczne wywołania narzędzi
Destrukcyjne narzędzia, ataki na argumenty i manipulacja odpowiedzią
narzędzia — powierzchnie firewalla i werdykty, które każdym zarządzają.
Eksfiltracja danych
SSRF i eksfiltracja sieciowa — listy dozwolonych egress i jak firewall
blokuje żądania wychodzące, zanim opuszczą bramę.
Zatrucie narzędzi MCP
Złośliwe serwery MCP, rug-pulle i pasma ryzyka skilli — brama MCP,
skanowanie skilli i egzekwowanie kwarantanny.
Nadmierne uprawnienia
Sięgające zbyt daleko agenty, zdezorientowany zastępca i denial-of-wallet
— klucze o ograniczonym zakresie, postawa domyślnej odmowy i pułapy
kosztów.
Referencja: Stos kontrolny — Guardrails — Agent Firewall — Reguły firewalla — Brama MCP — Skille — Klucze o ograniczonym zakresie — Zero trust dla agentów AI
