Zastosowanie postawy bezpieczeństwa zmienia ustawienie przestrzeni roboczej,
więc kroki 2 i 5 wymagają roli Developer. Strumień Matches guardrail
(krok 4) jest otwarty dla każdego członka; strumień Events firewalla
też wymaga Developer.
Włącz to w 5 krokach
Uzyskaj klucz API
Jeśli jeszcze nie masz, utwórz klucz — patrz
Uzyskaj klucz API. Daj ten klucz
agentowi, który chcesz zabezpieczyć. Wszystko poniżej wiąże się z twoją
przestrzenią roboczą, więc ta sama postawa obejmuje każdy klucz w niej.
Zastosuj bazę Secure Agents
W konsoli otwórz Firewall → Posture i zastosuj
poziom autonomii
balanced (rola Developer).W jednej transakcji ustawia to postawę zarówno Firewall, jak i Guardrails:
wywołania narzędzi są audytowane i PII jest flagowane, podczas gdy
najbardziej destrukcyjne akcje (jak destrukcyjny shell) są odmawiane —
więc obserwujesz przed szerokim egzekwowaniem. To pojedynczy przełącznik
z jednym kliknięciem cofnięcia. (Dla przejścia, które nic nie blokuje,
zacznij od permissive.)Wyślij żądanie dokładnie jak wcześniej
Nic w twoim wywołaniu się nie zmienia. Użyj tego samego klucza, tego
samego formatu OpenAI:Żądanie przechodzi. Pod
balanced nie jest blokowane — jest obserwowane.
Email jest flagowany, a wywołania narzędzi, które twój agent wykonuje,
są rejestrowane.Zobacz, co twój agent faktycznie zrobił
Dwa strumienie, oba w zakresie przestrzeni roboczej:
- Firewall → Events / Runs — każde wywołanie narzędzia, które twój agent wykonał, jego werdykt i która powierzchnia go trafiła (narzędzie, które ogłosił, wywołanie emitowane przez model, dyspozycja MCP lub zewnętrzne miejsce docelowe).
- Guardrails → Matches — każda reguła, która odpaliła, jak oflagowany email, pogrupowane według guardrail i akcji.
Zaostrzaj, aby egzekwować
Gdy strumienie wyglądają dobrze, przełącz poziom autonomii na
tight
na tej samej stronie Firewall → Posture (rola Developer).Teraz egzekwowanie jest aktywne: PII jest maskowane przed zobaczeniem
przez model, sekrety są blokowane z twoich żądań, a destrukcyjne
wywołania shella i egress SSRF są odmawiane. Odmówione wywołanie narzędzia
wraca jako HTTP 400 firewall_blocked; zablokowany prompt wraca jako
HTTP 400 guardrail_blocked — a blokada nie kosztuje cię żadnego
limitu. Bez zmiany aplikacji — następne żądanie jest zarządzane.Co właśnie włączyłeś
| Warstwa | Pod balanced | Pod tight |
|---|---|---|
| Guardrails (tekst) | PII flagowane (tylko audyt) | PII maskowane, sekrety blokowane |
| Firewall (akcje) | Audytowane; destrukcyjny shell odmówiony | Domyślna odmowa; destrukcyjny shell + egress SSRF odmówione |
| Widoczność | Pełna — Events + Matches | Pełna — Events + Matches |
Zbyt restrykcyjne?
Każda zmiana autonomii to jedna transakcja z jednym kliknięciem cofnięcia, więc możesz cofnąć się do poprzedniej postawy ze strony Firewall (lub API cofnięcia). Możesz też po prostu ponownie zastosować łagodniejszy poziom (balanced lub permissive) w dowolnym czasie.
Następne kroki
Baza Secure Agents
Co ustawia każdy poziom autonomii i jak symulować przed zastosowaniem.
Tryby egzekwowania
Obserwacja → cień → egzekwowanie, bezpieczne wdrożenie w szczegółach.
Guardrails
Twórz własne reguły treści poza bazą.
Agent Firewall
Twórz listy dozwolonych narzędzi, sprawdzenia argumentów i reguły egress.
