Utwórz swój pierwszy guardrail

Najszybszy sposób, by postawić politykę treści przed każdym wywołaniem modelu, to guardrail — nazwana polityka w zakresie przestrzeni roboczej, którą autorzysz raz w konsoli i wiążesz z kluczem API. Brama następnie sprawdza wejście żądania i wyjście modelu przy następnym wywołaniu, bez ponownego wdrożenia i bez zmiany SDK. Ta strona przechodzi pełną pętlę: utwórz guardrail, dodaj regułę, przetestuj w piaskownicy, powiąż z kluczem i wyślij prawdziwe żądanie. Pełną referencję silnika — każdy typ reguły, pole i trasę — znajdziesz w referencji Guardrails.

Każdy krok tutaj to akcja konsoli na hostowanej bramie (api.orcarouter.ai). Konfiguracja guardrail biegnie pod twoją własną sesją; tylko końcowe wywołanie /v1/* używa klucza relay sk-orca-.... Tworzenie i edycja guardrails wymaga roli Developer+ w przestrzeni roboczej.

1. Jak dodać guardrails LLM w pięciu krokach

Oto cała pętla w skrócie — każdy krok rozwinięty poniżej.

Utwórz guardrail

W konsoli otwórz Guardrails i kliknij New guardrail. Nadaj mu nazwę (≤ 64 znaki), np. pii-shield.

Dodaj regułę

Dodaj jedną regułę Wykrywanie PII na etapie input z akcją mask.

Przetestuj w piaskownicy

Otwórz zakładkę Test, wklej próbkę i uruchom politykę lokalnie — bez wywołania w górę, bez kwoty.

Powiąż z kluczem

Edytuj klucz API i wybierz guardrail z rozwijanej listy Guardrail. Powiązanie żyje na kluczu.

Wyślij żądanie

Wywołaj /v1/chat/completions tym kluczem. Brama stosuje politykę przed przesłaniem.

2. Utwórz guardrail

W konsoli otwórz Guardrails i kliknij New guardrail. Guardrail to nazwana polityka treści w zakresie przestrzeni roboczej — uporządkowana lista reguł, które brama uruchamia wobec wejścia żądania i wyjścia modelu. Nazwij go pii-shield i zapisz.

Przycisk z podziałem New guardrail otwiera się też prosto w szablonie. Preset PII Shield to pojedyncza reguła pii, która maskuje email, phone, ssn, credit_card i ip. Zastosowanie presetu to ziarno, nie blokada — edytuj go potem swobodnie. Przeglądaj szablony presetów po więcej punktów wyjścia.

3. Dodaj regułę

Każda reguła decyduje o trzech rzeczach — czego szukać (typ reguły), gdzie szukać (etap) i co zrobić (akcja). Dodaj jedną regułę:

Typ: Wykrywanie PII (pii)
Etap: Wejście (żądanie)
Akcja: Mask — redaguj dopasowanie
Encje: email, phone, ssn

Przy akcji mask każde dopasowanie jest zastępowane typowanym tagiem — email staje się [EMAIL], SSN staje się [SSN]. Siedem typów reguł (keyword, regex, pii, max_chars, external, llm_judge, grounding) i pięć akcji (block, mask, flag, annotate, spotlight) omówiono w referencji. Dla tego pierwszego guardrail jedna reguła maskująca wystarcza.

Maskowanie działa na obu etapach. Reguły na etapie wejścia maskują żądanie, zanim model je w ogóle zobaczy; reguły na etapie wyjścia maskują odpowiedź modelu — na odpowiedziach nie-streamingowych i chunk po chunku na streamingowych — zanim klient ją otrzyma. Block jest też egzekwowany na obu etapach. Jeśli chcesz bramkować odpowiedzi modelu, ustaw etap reguły na output (lub both); zobacz Reguły na etapie wyjścia.

4. Przetestuj w piaskownicy

Zanim powiążesz guardrail z jakimkolwiek kluczem, udowodnij, że robi to, czego oczekujesz. Otwórz zakładkę Test wewnątrz edytora, wklej próbkę, wybierz etap input i uruchom:

Reply to jane@acme.com please

Piaskownica ewaluuje bieżącą politykę lokalnie i zwraca werdykt oraz wyrenderowany tekst:

Reply to [EMAIL] please

Nic nie jest wysyłane w górę i nic nie jest mierzone. Po siatkę A/B wobec korpusu wejść harness ewaluacyjny mieszka o jedną zakładkę dalej.

5. Powiąż z kluczem

Guardrail nic nie robi, dopóki klucz na niego nie wskaże. Dwa sposoby powiązania:

Per klucz

Edytuj klucz API i wybierz guardrail z rozwijanej listy Guardrail. To ustawia guardrail_id na kluczu. Zobacz Powiąż z kluczem.

Domyślny przestrzeni roboczej

Oznacz guardrail jako domyślny przestrzeni roboczej, aby każdy klucz bez jawnego powiązania go odziedziczył. Zobacz Domyślny dla konta.

Rozwiązywanie jest jawne i przewidywalne:

Kolejność	Co ma zastosowanie
1	Jawny `guardrail_id` klucza (jeśli istnieje i jest włączony).
2	Domyślny przestrzeni roboczej (jeśli klucz nie ma powiązania).
3	Żaden — żądanie jest bajt-identyczne z przestrzenią roboczą bez polityki.

Jawne powiązanie nigdy po cichu nie wraca. Wyłączenie powiązanego guardrail to przełącznik off — nie spada do domyślnego przestrzeni roboczej. (Polityki firewalla różnią się tutaj; zobacz Guardrails vs. firewall.)

6. Wyślij żądanie

Używając klucza powiązanego z pii-shield, wywołaj OrcaRouter dokładnie jak wcześniej — bez zmiany SDK, bez nowych nagłówków:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Reply to jane@acme.com please"}
    ]
  }'

Brama maskuje email do [EMAIL] przed przesłaniem — model nadrzędny nigdy nie widzi adresu. Zamień akcję reguły na block, a kolejne żądanie zawierające encję jest odrzucane z HTTP 400 guardrail_blocked. Zablokowane żądanie nie kosztuje kwoty (blokada wejścia działa przed pomiarem; blokada wyjścia zwraca wstępnie pobraną kwotę) i jest oznaczone jako skip-retry. Zobacz błąd guardrail_blocked po pełny kształt odpowiedzi.

7. Dokąd dalej

Zobacz, co zadziałało

Każda reguła, która zadziała, rejestruje dopasowanie — typ, akcję, etap i łańcuch szczegółów. Dopasowany podłańcuch jest rejestrowany tylko, gdy Log raw content jest włączone (domyślnie wyłączone). Zobacz Strumień dopasowań i Logowanie i prywatność.

Maskuj więcej niż podstawy

Wykrywanie PII obejmuje email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address (plus encje regionalne), a możesz autorzyć własne. Zobacz PII Shield, Niestandardowe encje PII i Formaty maskowania.

Wychwyć sekrety i injection

Dodaj bloker sekretów lub preset podstaw Prompt-Injection — ten ostatni flaguje typowe frazy jailbreak do przeglądu. Aby wychwycić intencję injection semantycznie, a nie po frazie, dodaj obok regułę llm_judge.

Wycofaj zmianę

Każda edycja zapisuje wiersz historii wersji. Otwórz History, aby porównać i przywrócić. Zobacz Wersjonowanie.

Bramkuj wywołania narzędzi, nie tylko tekst

Guardrails sprawdzają treść. Aby rządzić wywołaniami narzędzi agenta — odmawiać akcji destrukcyjnych, ograniczać koszt, wymagać zatwierdzenia — użyj Firewalla. Zacznij od Zabezpieczania agentów AI i zagrożenia niebezpiecznych wywołań narzędzi.

Przeczytaj referencję Guardrails po kompletny silnik — pola reguł, zewnętrznych dostawców, harness ewaluacyjny i pełne API — albo szybki start bezpieczeństwa, aby spiąć guardrails i firewall razem dla bazy agenta.

​1. Jak dodać guardrails LLM w pięciu krokach

​2. Utwórz guardrail

​3. Dodaj regułę

​4. Przetestuj w piaskownicy

​5. Powiąż z kluczem

Per klucz

Domyślny przestrzeni roboczej

​6. Wyślij żądanie

​7. Dokąd dalej

1. Jak dodać guardrails LLM w pięciu krokach

2. Utwórz guardrail

3. Dodaj regułę

4. Przetestuj w piaskownicy

5. Powiąż z kluczem

6. Wyślij żądanie

7. Dokąd dalej