Przejdź do głównej treści
Krótka odpowiedź: Guardrails zarządzają tekstem; Firewall zarządza akcjami. Są uzupełniające — jedno żądanie przepływa przez obie — a najszybszym sposobem na wspólną konfigurację jest poziom autonomii. Reszta tej strony jest dla przypadków, gdy musisz wiedzieć, która warstwa odpowiada za konkretne zagrożenie.
Wymagana rola. Każdy członek przestrzeni roboczej może czytać polityki i strumień Matches guardrail; strumień Events firewalla wymaga roli Developer. Tworzenie lub edycja guardrails lub polityk firewalla wymaga też Developer lub wyższej.

1. Jednostronicowe rozróżnienie

WarstwaZarządzaWidzi
GuardrailsTekst — co model czyta i piszeTreść promptu, treść odpowiedzi
Agent FirewallAkcje — co agent robiWywołania narzędzi, dyspozycje MCP, zewnętrzne miejsca docelowe w sieci
Guardrails odpalają przed wywołaniem nadrzędnym (na prompcie) i po nim (na odpowiedzi). Firewall odpala przy każdym wywołaniu narzędzia, które model emituje lub które agent wydaje — niezależnie od modelu lub dostawcy, który obsłużył turę.

2. Porównanie obok siebie

WymiarGuardrailsAgent Firewall
ZarządzaTekstem promptu i tekstem odpowiedzi modeluWywołaniami narzędzi, dyspozycjami MCP, miejscami docelowymi egress, kosztem agenta
WidziWiadomość użytkownika, prompt systemowy i odpowiedź modeluNazwę narzędzia, argumenty wywołania, wywołania narzędzi emitowane przez model, zewnętrzny host/IP
Dołącza przezguardrail_id na kluczu APIfirewall_policy_id na kluczu API
Typy regułkeyword, regex, pii, max_chars, external, llm_judge, groundingGlob nazwy narzędzia + klauzule argumentów + zakres egress + własność skilla
Przykładowe zagrożeniaPII w promptach, sekrety API w odpowiedziach, jailbreaki, wyjście off-topic, zbyt duży kontekstNiebezpieczne wywołanie narzędzia, SSRF, eksfiltracja danych, rozbiegana pętla kosztu agenta, niezatwierdzony serwer MCP
Werdykty / akcjeblock (HTTP 400 guardrail_blocked), mask, flagallow, audit, deny (HTTP 400 firewall_blocked), sanitize, pending_approval, cap_cost
Kiedy odpalaEtap wejściowy: przed wywołaniem modelu; etap wyjściowy: po odpowiedzi modeluPrzy każdym wywołaniu narzędzia emitowanym przez model lub wydanym przez agenta
Tryb cienia / obserwacjiNie — guardrails odpala albo nieTak — tryb cienia degraduje egzekwujące werdykty do audit dla bezpiecznego wdrożenia

3. Zagrożenie → która warstwa

Użyj tej tabeli, aby skierować nowe wymaganie bezpieczeństwa do właściwej kontroli:
ZagrożenieSięgnij po
PII w wiadomości użytkownikaGuardrails — reguła pii na wejście (mask / block)
Sekret w odpowiedzi modeluGuardrails — reguła sekretów na wyjście
Niebezpieczne wywołanie narzędzia (shell.exec rm -rf /)Firewalldeny na glob narzędzia + klauzula argumentu
SSRF / eksfiltracja danych przez zewnętrzny URLFirewall — lista dozwolonych/zablokowanych egress
Prompt injection z niezaufanej treściObie — guardrail wejściowy + lista dozwolonych firewalla
Sekret w argumencie narzędziaFirewall sanitize + Guardrails reguła sekretów
Jailbreak / obejście politykiGuardrailsllm_judge / keyword / regex
Zbyt duży prompt lub koszt tokenówGuardrails — reguła max_chars
Rozbiegane wydatki agenta (pętla kosztu)Firewall — werdykt cap_cost
Niezatwierdzony serwer MCPFirewall — deny na powierzchni MCP / pending_approval
Wrażliwe dane z wyniku narzędziaGuardrails — reguła wyjściowa na odpowiedź
Dogłębne uzasadnienie każdego parowania żyje na stronach dogłębnej analizy Zagrożeń.

4. Używaj obu — poziomy autonomii ustawiają je razem

Guardrails i Firewall są zaprojektowane do komponowania, a nie konkurowania. Jedno żądanie przechodzi przez obie płaszczyzny:
  1. Guardrail wejściowy działa — tekst promptu jest sprawdzany i opcjonalnie maskowany.
  2. Wywołanie modelu — (możliwie zredagowany) prompt dociera do modelu nadrzędnego.
  3. Firewall — każde wywołanie narzędzia emitowane przez model jest ewaluowane.
  4. Guardrail wyjściowy działa — tekst odpowiedzi modelu jest sprawdzany.
Najszybszym sposobem na konfigurację obu naraz jest poziom autonomii — jedno ustawienie, które atomowo zapisuje politykę Firewall i politykę Guardrails dla całej przestrzeni roboczej, z jednym kliknięciem cofnięcia:
Poziom autonomiiPostawa FirewallPostawa Guardrails
tightDomyślna odmowa; blokuj destrukcyjny shell + egress SSRFPII Shield + Secrets Blocker włączone
balancedDomyślny audyt; odmów destrukcyjny shellPII Shield tylko audyt (flaguje PII)
permissiveBrak egzekwujących reguł; tryb obserwacji włączonyBrak egzekwowania
Zastosuj poziom autonomii z konsoli Firewall (POST /api/workspace/firewall/autonomy, Developer+), a potem niezależnie dostrajaj każdą płaszczyznę stamtąd.

5. Podsumowanie

Guardrails mają tekst; Firewall ma akcje — uruchom obie, pozwól poziomowi autonomii je spiąć razem i zaostrzaj każdą płaszczyznę niezależnie, gdy widzisz rzeczywisty ruch swoich agentów.

Guardrails

Typy reguł, wykrywanie PII, sędzia LLM, harness ewaluacyjny i referencja API.

Agent Firewall

Werdykty, powierzchnie, poziomy autonomii, zatwierdzenie HITL i referencja API.