rm -rf /, które model odbija do narzędzia shell, UNION SELECT, które emituje dla runnera SQL do wykonania. Polityka treści, która
myśli tylko o PII lub sekretach, pomija wszystkie cztery. Kategoria presetów
Agent istnieje dokładnie dla tego kształtu — deterministyczne reguły
regex, które blokują żądanie lub odpowiedź, zanim narzędzie poniżej w
ogóle na nim zadziała.
To skupiona strona docelowa dla przypadku agentowego. Pełny silnik guardrail —
każdy typ reguły, pole, etap i trasę — znajdziesz w
referencji Guardrails.
1. Dlaczego guardrails agenta to odrębna powierzchnia
Guardrail sprawdza treść — tekst w żądaniu i tekst w odpowiedzi. Dla agenta ten tekst staje się akcją: URL zostaje pobrany, markdown zostaje wyrenderowany, linia shell zostaje uruchomiona, SQL zostaje wykonany. Więc ten sam silnikblock / mask, którego używasz dla PII, pełni tu podwójną służbę
— zatrzymuje payload na bramie przed tym, jak warstwa narzędzi agenta może
zamienić go w efekt uboczny.
Kategoria Agent dostarcza cztery presety, każdy jedną regułą regex z
akcją block, rozdzielone na dwa etapy:
URL Filter — input, block
URL Filter — input, block
Blokuje dowolny URL
http(s) na żądaniu. Użyj go dla przepływów
agenta, gdzie wychodzące URL-e muszą być na liście dozwolonych, a nie
otwarte. Zasiany wzorzec dopasowuje dowolny URL; edytuj regex, by
dopuścić konkretne domeny.Markdown Image Block — output, block
Markdown Image Block — output, block
Blokuje osadzenia obrazów markdown (
) w odpowiedzi
modelu. Broni przed eksfiltracją przez renderowanie obrazów na klientach,
które auto-ładują zdalne obrazy — klasyczny kanał wycieku danych, gdzie
wyrenderowany URL obrazu przemyca dane na zewnątrz.Tool Call Shell Block — input, block
Tool Call Shell Block — input, block
Blokuje oczywiste wzorce shell-injection w żądaniu (
rm -rf /,
curl … | sh, wget … | bash, eskalacja sudo). Użyj go dla przepływów
agenta, które mogą przekazać wejście użytkownika do narzędzia shell.SQL Injection in Output — output, block
SQL Injection in Output — output, block
Blokuje odpowiedzi modelu niosące klasyczne payloady SQL-injection
(
UNION SELECT, OR 1=1, DROP TABLE, terminatory komentarzy). Obrona w
głąb dla narzędzi, które auto-wykonują SQL wyprodukowany przez model.Dwa presety sprawdzają wejście, dwa wyjście. URL Filter i Tool Call Shell
Block działają na żądaniu — zanim model się uruchomi, zanim jakakolwiek
kwota jest mierzona. Markdown Image Block i SQL Injection in Output działają na
odpowiedzi — po tym, jak model odpowie, zanim treść dotrze do twojego
klienta lub jego warstwy narzędzi. Wiedza o tym, na którym etapie żyje ryzyko,
to cała gra; zobacz Etap wejścia i
Etap wyjścia.
2. Zastosuj guardrail agenta w konsoli
Każdy krok tutaj to akcja konsoli na hostowanej bramie pod twoją własną sesją. Tworzenie i edycja guardrails wymaga Developer+ w przestrzeni roboczej. Tylko końcowe wywołanie/v1/* używa klucza relay sk-orca-... —
sam guardrail jest konfigurowany w całości w konsoli.
Otwórz szablon
W konsoli otwórz Guardrails, kliknij przycisk z podziałem New
guardrail i wybierz preset z kategorii szablonów Agent — np.
Markdown Image Block. Zasiewa pojedynczą regułę block
regex na
właściwym etapie.Nazwij i zapisz
Nadaj mu nazwę (≤ 64 znaki), np.
agent-rails, i zapisz. Preset to
ziarno, nie blokada — dodaj pozostałe trzy reguły Agent lub edytuj regex
swobodnie potem (zobacz §4).Przetestuj w piaskownicy
Otwórz zakładkę Test wewnątrz edytora, wklej próbkę, wybierz pasujący
etap i uruchom bieżącą politykę lokalnie — bez wywołania w górę, bez
kwoty (zobacz §3).
Powiąż klucz
Edytuj klucz API i wybierz
agent-rails z rozwijanej listy Guardrail
(ustawia guardrail_id na kluczu) lub oznacz go jako domyślny
przestrzeni roboczej. Zobacz
Powiąż z kluczem i
Domyślny dla konta.3. Udowodnij to, zanim powiążesz
Udowodnij, że reguła działa, zanim jakikolwiek klucz na nią wskaże. Otwórz zakładkę Test, wybierz etap output i wklej odpowiedź, do której emitowania zatruta przez atakującego strona mogła nakłonić model:4. Komponuj i stroj reguły
Cztery presety to ziarna. Częstym ruchem jest połączenie ich w jeden guardrailagent-rails i zacieśnienie każdego regex do twojego stosu:
Lista dozwolonych URL-i
Zacznij od URL Filter, potem edytuj
regex, by blokował każdy URL
poza twoimi usankcjonowanymi domenami — odwróć dopasowanie na listę
dozwolonych zamiast zbiorczej blokady.Autorzuj własne detektory
Dodaj regułę
regex dla
dowolnego kształtu payloadu, na którym zależy twoim narzędziom — wzorce
RE2, liniowy czas, bez backreferencji. Wzorce kompilują się raz i są
cache’owane między żądaniami.5. Jak wygląda blokada
Każdy preset Agent używa akcji block. Zablokowane żądanie zwraca HTTP 400 z kodem błęduguardrail_blocked i komunikatem nazywającym guardrail
oraz regułę, która zadziałała:
guardrail_blocked.
6. Guardrails to treść; firewall to wywołania narzędzi
Guardrails agenta to silna pierwsza warstwa, ale rozumują o łańcuchach, nie semantyce narzędzi. Blokują linię shell w treści — nie rozumieją, że model wyemitował ustrukturyzowanetool_call do destrukcyjnego narzędzia ani
że wychodzące żądanie zmierza do IP metadanych.
Tą warstwą wywołań narzędzi jest Firewall: ocenia
emitowane przez model tool_calls, MCP tools/call i wychodzący egress
werdyktami jak allow / audit / deny / pending_approval. Oba się
komponują — guardrails sprawdzają tekst, firewall rządzi akcją.
Firewall
Rządź emitowanymi przez model wywołaniami narzędzi, wywołaniami MCP i
egressem werdyktami allow / audit / deny / approval.
Guardrails vs. Firewall
Kiedy sięgnąć po guardrail treści vs. firewall wywołań narzędzi — i jak
uruchomić oba.
Zabezpieczanie agentów AI
Pełny stos kontrolny agenta: treść, narzędzia, MCP i egress.
Nadmierna sprawczość
Zagrożenie, które adresują te szyny — agent, który robi więcej, niż powinien.
7. Zobacz, co zadziałało
Każda reguła, która zadziała, rejestruje dopasowanie — typ reguły, akcję, etap i łańcuch szczegółów — pokazane w strumieniu Matches przestrzeni roboczej. Sam dopasowany podłańcuch jest rejestrowany tylko, gdy Log raw content jest włączone, co jest domyślnie wyłączone. Grupuj i filtruj strumień po guardrail, typie reguły i akcji, by obserwować wskaźnik trafień reguł agenta i stroić fałszywie pozytywne. Zobacz Strumień dopasowań, Logowanie i prywatność i Strojenie fałszywie pozytywnych.8. Dokąd dalej
Reguły na etapie wyjścia
Jak sprawdzanie odpowiedzi działa dla Markdown Image Block i SQL
Injection in Output.
Detektory regex
Autorzuj własne wzorce RE2, by rozszerzyć reguły Agent.
Eksfiltracja danych
Kanał eksfiltracji, który zamyka Markdown Image Block.
Niebezpieczne wywołania narzędzi
Dlaczego sama szyna treści nie wystarcza — sparuj ją z firewallem.
