1. Guardrails wejścia dla aplikacji LLM, przed modelem
Każda reguła guardrail niesie etap —input, output lub both. Reguła
input biegnie wobec tekstu żądania w chwili, gdy przybywa, w drodze do
modelu nadrzędnego:
Reguły wejścia sprawdzają żądanie wywołującego. Jeśli używasz też
promptów z rejestru, wstrzyknięta wiadomość systemowa
jest dodawana później w routingu — więc reguły wejścia widzą wiadomości, które
wysłała twoja aplikacja, nie wstrzyknięty prompt. Reguły wyjścia sprawdzają
odpowiedź w obu przypadkach.
2. Co możesz uruchomić na etapie wejścia
Każdy typ reguły może biec nainput. Najczęstsze powody, by bramkować
żądanie przed modelem:
Maskuj PII w prompcie
Reguła
pii z akcją mask przepisuje encje na typowane tagi
(jane@acme.com → [EMAIL]), więc model nadrzędny nigdy nie widzi
surowej wartości. Zobacz PII Shield.Blokuj sekrety, zanim wyciekną
Żądanie niosące klucz API lub poświadczenie chmurowe jest odrzucane już u
progu — przed pomiarem, bez wywołania w górę. Zobacz
Blokuj sekrety.
Zatrzymaj próby injection
Preset podstaw Prompt-Injection łączy detektory keyword/regex z regułą
llm_judge dla intencji injection. Zobacz
Prompt injection.Ogranicz rozmiar promptu
Reguła
max_chars odrzuca zbyt duży prompt, zanim naliczy jakiekolwiek
tokeny. Zobacz Guardrails kosztów.keyword, regex, pii, max_chars, external,
llm_judge, grounding — i pięć akcji block, mask, flag, annotate
oraz spotlight stosuje się tutaj. (spotlight owija dopasowany niezaufany
tekst w ograniczniki, by model traktował go jako dane, nie instrukcje —
obrona przed prompt-injection na etapie wejścia; annotate dokleja notatkę
bez zmiany ruchu.) Jeden wyjątek wart poznania:
grounding mierzy
odpowiedź wobec pobranych źródeł, więc jest z natury sprawdzeniem na etapie
wyjścia. Wszystko inne naturalnie pasuje do etapu wejścia.
3. Jeden konkretny przykład
Autorzuj regułę w konsoli (pod twoją własną sesją — konfiguracja guardrail wymaga Developer+), nie kluczem relay. Dodaj jedną regułęinput do
guardrail o nazwie secrets-shield:
guardrail_id lub oznacz go jako domyślny
przestrzeni roboczej — zobacz
Powiąż z kluczem), potem wywołaj
bramę tym kluczem relay sk-orca-...:
guardrail_blocked, zanim brama prześle cokolwiek w górę:
guardrail_blocked
po pełny kształt odpowiedzi.
4. Dlaczego blokada wejścia nie kosztuje kwoty
To strukturalna przewaga wychwytywania rzeczy na wejściu. Blokada na etapie wejścia siedzi przed wstępnym pobraniem, więc:| Właściwość | Blokada na etapie wejścia |
|---|---|
| Status HTTP | 400 guardrail_blocked |
| Naliczona kwota | Żadna — działa przed pomiarem |
| Wywołanie w górę | Nigdy nie wykonane |
| Ponowienie | Oznaczone skip-retry — ponowne uruchomienie znów blokuje |
Ponieważ żądanie nigdy nie dociera do kanału, blokada wejścia jest oznaczona
jako skip-retry: ponowne uruchomienie tego samego promptu na innym kanale
po prostu znów by zablokowało i zmarnowało wysiłek. Etap wyjścia różni się —
blokada tam zwraca kwotę, którą brama już wstępnie pobrała. To samo
400,
inna księgowość.5. Rozwiązywanie i fallback
Reguła na etapie wejścia biegnie tylko, jeśli guardrail faktycznie rozwiąże się na żądaniu. Rozwiązywanie jest jawne:- Jawny
guardrail_idklucza, jeśli istnieje i jest włączony. - W przeciwnym razie domyślny guardrail przestrzeni roboczej.
- W przeciwnym razie żaden — żądanie jest bajt-identyczne z przestrzenią roboczą bez polityki.
6. Udowodnij to, zanim wyślesz
Nie wiąż blokującej reguły wejścia z żywym ruchem na wiarę. Dwa sposoby, by najpierw zwalidować:Zakładka Test — jedna próbka
Zakładka Test — jedna próbka
Otwórz zakładkę Test w edytorze guardrail, wklej próbkę, wybierz etap
input i uruchom. Piaskownica ewaluuje bieżącą politykę lokalnie — bez
wywołania w górę, bez kwoty — i zwraca werdykt oraz (dla reguł mask)
wyrenderowany tekst. Zobacz
Testowanie i eval.Flaguj, zanim zablokujesz
Flaguj, zanim zablokujesz
Ustaw akcję najpierw na flag. Flag nie zmienia nic w ruchu — tylko
rejestruje dopasowanie — więc możesz zmierzyć, jak często reguła by
zadziałała na rzeczywistym wejściu, zanim przełączysz ją na block.
Zobacz Strojenie fałszywie pozytywnych.
Zobacz, co zadziałało
Zobacz, co zadziałało
Każda reguła, która zadziała, rejestruje dopasowanie — typ, akcję, etap i
łańcuch szczegółów. Dopasowany podłańcuch jest rejestrowany tylko, gdy
Log raw content jest włączone (domyślnie wyłączone). Zobacz
Strumień dopasowań i
Logowanie i prywatność.
7. Dokąd dalej
Etap wejścia zatrzymuje złe wejście przed dotarciem do modelu. Aby bramkować odpowiedź modelu, sparuj go z etapem wyjścia; aby rządzić wywołaniami narzędzi agenta, użyj firewalla.- Reguły na etapie wyjścia — sprawdź odpowiedź modelu po jej powrocie.
- Etapy i
both— kiedy uruchamiać regułę na wejściu, wyjściu lub obu. - Zabezpieczanie agentów AI — gdzie guardrails wejścia siedzą w pełnym stosie kontrolnym.
- Zagrożenie prompt-injection i eksfiltracja danych — ataki, do których zatrzymania zbudowana jest reguła wejścia.
