Guardrails vs. Agent Firewall — kiedy używać którego

Krótka odpowiedź: Guardrails zarządzają tekstem; Firewall zarządza akcjami. Są uzupełniające — jedno żądanie przepływa przez obie — a najszybszym sposobem na wspólną konfigurację jest poziom autonomii. Reszta tej strony jest dla przypadków, gdy musisz wiedzieć, która warstwa odpowiada za konkretne zagrożenie.

Wymagana rola. Każdy członek przestrzeni roboczej może czytać polityki i strumień Matches guardrail; strumień Events firewalla wymaga roli Developer. Tworzenie lub edycja guardrails lub polityk firewalla wymaga też Developer lub wyższej.

1. Jednostronicowe rozróżnienie

Warstwa	Zarządza	Widzi
Guardrails	Tekst — co model czyta i pisze	Treść promptu, treść odpowiedzi
Agent Firewall	Akcje — co agent robi	Wywołania narzędzi, dyspozycje MCP, zewnętrzne miejsca docelowe w sieci

Guardrails odpalają przed wywołaniem nadrzędnym (na prompcie) i po nim (na odpowiedzi). Firewall odpala przy każdym wywołaniu narzędzia, które model emituje lub które agent wydaje — niezależnie od modelu lub dostawcy, który obsłużył turę.

2. Porównanie obok siebie

Wymiar	Guardrails	Agent Firewall
Zarządza	Tekstem promptu i tekstem odpowiedzi modelu	Wywołaniami narzędzi, dyspozycjami MCP, miejscami docelowymi egress, kosztem agenta
Widzi	Wiadomość użytkownika, prompt systemowy i odpowiedź modelu	Nazwę narzędzia, argumenty wywołania, wywołania narzędzi emitowane przez model, zewnętrzny host/IP
Dołącza przez	`guardrail_id` na kluczu API	`firewall_policy_id` na kluczu API
Typy reguł	`keyword`, `regex`, `pii`, `max_chars`, `external`, `llm_judge`, `grounding`	Glob nazwy narzędzia + klauzule argumentów + zakres egress + własność skilla
Przykładowe zagrożenia	PII w promptach, sekrety API w odpowiedziach, jailbreaki, wyjście off-topic, zbyt duży kontekst	Niebezpieczne wywołanie narzędzia, SSRF, eksfiltracja danych, rozbiegana pętla kosztu agenta, niezatwierdzony serwer MCP
Werdykty / akcje	`block` (HTTP 400 `guardrail_blocked`), `mask`, `flag`	`allow`, `audit`, `deny` (HTTP 400 `firewall_blocked`), `sanitize`, `pending_approval`, `cap_cost`
Kiedy odpala	Etap wejściowy: przed wywołaniem modelu; etap wyjściowy: po odpowiedzi modelu	Przy każdym wywołaniu narzędzia emitowanym przez model lub wydanym przez agenta
Tryb cienia / obserwacji	Nie — guardrails odpala albo nie	Tak — tryb cienia degraduje egzekwujące werdykty do `audit` dla bezpiecznego wdrożenia

3. Zagrożenie → która warstwa

Użyj tej tabeli, aby skierować nowe wymaganie bezpieczeństwa do właściwej kontroli:

Zagrożenie	Sięgnij po
PII w wiadomości użytkownika	Guardrails — reguła `pii` na wejście (`mask` / `block`)
Sekret w odpowiedzi modelu	Guardrails — reguła sekretów na wyjście
Niebezpieczne wywołanie narzędzia (`shell.exec rm -rf /`)	Firewall — `deny` na glob narzędzia + klauzula argumentu
SSRF / eksfiltracja danych przez zewnętrzny URL	Firewall — lista dozwolonych/zablokowanych egress
Prompt injection z niezaufanej treści	Obie — guardrail wejściowy + lista dozwolonych firewalla
Sekret w argumencie narzędzia	Firewall `sanitize` + Guardrails reguła sekretów
Jailbreak / obejście polityki	Guardrails — `llm_judge` / keyword / regex
Zbyt duży prompt lub koszt tokenów	Guardrails — reguła `max_chars`
Rozbiegane wydatki agenta (pętla kosztu)	Firewall — werdykt `cap_cost`
Niezatwierdzony serwer MCP	Firewall — deny na powierzchni MCP / `pending_approval`
Wrażliwe dane z wyniku narzędzia	Guardrails — reguła wyjściowa na odpowiedź

Dogłębne uzasadnienie każdego parowania żyje na stronach dogłębnej analizy Zagrożeń.

4. Używaj obu — poziomy autonomii ustawiają je razem

Guardrails i Firewall są zaprojektowane do komponowania, a nie konkurowania. Jedno żądanie przechodzi przez obie płaszczyzny:

Guardrail wejściowy działa — tekst promptu jest sprawdzany i opcjonalnie maskowany.
Wywołanie modelu — (możliwie zredagowany) prompt dociera do modelu nadrzędnego.
Firewall — każde wywołanie narzędzia emitowane przez model jest ewaluowane.
Guardrail wyjściowy działa — tekst odpowiedzi modelu jest sprawdzany.

Najszybszym sposobem na konfigurację obu naraz jest poziom autonomii — jedno ustawienie, które atomowo zapisuje politykę Firewall i politykę Guardrails dla całej przestrzeni roboczej, z jednym kliknięciem cofnięcia:

Poziom autonomii	Postawa Firewall	Postawa Guardrails
`tight`	Domyślna odmowa; blokuj destrukcyjny shell + egress SSRF	PII Shield + Secrets Blocker włączone
`balanced`	Domyślny audyt; odmów destrukcyjny shell	PII Shield tylko audyt (flaguje PII)
`permissive`	Brak egzekwujących reguł; tryb obserwacji włączony	Brak egzekwowania

Zastosuj poziom autonomii z konsoli Firewall (POST /api/workspace/firewall/autonomy, Developer+), a potem niezależnie dostrajaj każdą płaszczyznę stamtąd.

5. Podsumowanie

Guardrails mają tekst; Firewall ma akcje — uruchom obie, pozwól poziomowi autonomii je spiąć razem i zaostrzaj każdą płaszczyznę niezależnie, gdy widzisz rzeczywisty ruch swoich agentów.

Guardrails

Typy reguł, wykrywanie PII, sędzia LLM, harness ewaluacyjny i referencja API.

Agent Firewall

Werdykty, powierzchnie, poziomy autonomii, zatwierdzenie HITL i referencja API.

Tryby egzekwowania Zakres i klucze

​1. Jednostronicowe rozróżnienie

​2. Porównanie obok siebie

​3. Zagrożenie → która warstwa

​4. Używaj obu — poziomy autonomii ustawiają je razem

​5. Podsumowanie

Guardrails

Agent Firewall

1. Jednostronicowe rozróżnienie

2. Porównanie obok siebie

3. Zagrożenie → która warstwa

4. Używaj obu — poziomy autonomii ustawiają je razem

5. Podsumowanie