Strojenie fałszywie pozytywnych

Guardrail, który jest zbyt gorliwy, jest gorszy niż brak guardrail — twój zespół uczy się ignorować strumień Matches albo poluzowujesz regułę i tracisz wychwyt, którego faktycznie chciałeś. OrcaRouter daje ci precyzyjną ścieżkę pośrednią: oznacz pojedyncze dopasowanie jako fałszywie pozytywne, a silnik zapamiętuje to ustalenie i pomija je przy przyszłych żądaniach — bez dotykania reguły, poluzowywania wzorca czy wysyłania zmiany SDK. To skupiona strona docelowa dla przepływu fałszywie pozytywnych. Po pełny silnik guardrail — każdy typ reguły, pole i trasę — zobacz referencję Guardrails.

Każdy krok tutaj to akcja konsoli na hostowanej bramie (api.orcarouter.ai). Triażujesz dopasowania pod twoją własną sesją; tylko końcowe wywołanie /v1/* używa klucza relay sk-orca-.... Oznaczenie dopasowania jako fałszywie pozytywne wymaga roli Admin przestrzeni roboczej; odczyt strumienia Matches i wynikowej listy supresji jest otwarty dla każdego członka.

1. Zmniejsz fałszywie pozytywne guardrail bez osłabiania reguły

Instynktem, gdy reguła nad-działa, jest poluzowanie jej — rozszerzyć wyjątek regex, porzucić encję, przełączyć block na flag. To wymienia jeden fałszywie pozytywny na dziurę w polityce. Supresja przez oznaczenie fałszywie pozytywnego to chirurgiczna alternatywa:

Wytłum jedno ustalenie

Wycisz dokładne dopasowanie, które wypaliło źle — konkretny podłańcuch pod konkretną regułą — nie całą regułę. Następne naprawdę wrażliwe trafienie nadal działa.

Bez edycji reguły, bez ponownego wdrożenia

Supresja żyje w bramie jako pamięć przestrzeni roboczej. Reguła pozostaje dokładnie jak napisana; twoja aplikacja dalej woła /v1/* niezmieniona.

Pamięć obejmująca całą przestrzeń roboczą

Jeden Admin oznacza to raz; supresja jest deduplikowana w przestrzeni roboczej, więc ruch każdego członka korzysta — bez fan-outu per-klucz.

Odwracalne

Odznacz dopasowanie (lub usuń supresję), a ustalenie działa znów przy następnym żądaniu. Nic nie jest niszczone.

Supresja jest dla ustalenia, które osądziłeś łagodnym. Jeśli cała reguła jest źle skalibrowana — zły kształt, zły etap — napraw regułę i udowodnij to w harnessie ewaluacyjnym zamiast wyciszać dopasowanie za dopasowaniem.

2. Jak dopasowanie staje się supresją

Każda reguła, która zadziała, rejestruje dopasowanie w strumieniu Matches przestrzeni roboczej — typ reguły, akcję, etap i łańcuch szczegółów. Gdy oznaczysz jedno z tych dopasowań jako fałszywie pozytywne, brama wyprowadza stabilny odcisk dla ustalenia i zapisuje go na liście supresji przestrzeni roboczej. Przy każdym przyszłym żądaniu silnik sprawdza odcisk każdego ustalenia wobec tej listy i pomija stłumione, zanim może zablokować, zamaskować lub oflagować. Dwa rodzaje ustaleń produkują odcisk:

Ustalenia bezpieczeństwa kodu niosą własny odcisk

Ustalenie CVE / SBOM już jest dostarczane ze stabilną tożsamością — tożsamość ostrzeżenia lub komponentu podróżuje z ustaleniem. Stłumienie jednego wycisza dokładnie ten CVE/komponent, i tylko ten. To natywny przypadek, dla którego zbudowano magazyn supresji.

Reguły deterministyczne dostają syntetyczny odcisk

Keyword, regex, PII i inne deterministyczne typy reguł nie niosą własnej tożsamości, więc brama syntetyzuje jedną z danych identycznych po stronie zapisu (twoje kliknięcie mark-FP) i stronie egzekwowania (następne żądanie): guardrail, tożsamość dopasowująca reguły i — gdy przechwytywanie surowe jest włączone — same dopasowane podłańcuchy.

Precyzja syntetycznego odcisku zależy od Log raw content, które jest domyślnie wyłączone. Przy przechwytywaniu włączonym odcisk opiera się na dokładnym dopasowanym podłańcuchu, więc stłumienie ORD-48291507 wycisza ten numer zamówienia i nic innego. Przy przechwytywaniu wyłączonym nie ma podłańcucha, na którym się oprzeć, więc supresja wraca do wyciszenia na poziomie reguły — ucisza tę jedną regułę (na tym etapie) dla przestrzeni roboczej. Fallback nigdy nie sięga poza regułę, z której pochodzi. Zobacz Logowanie i prywatność.

3. Jeden konkretny przykład

Powiedzmy, że uruchamiasz regułę regex, która maskuje wewnętrzne numery zamówień w kształcie ORD- plus osiem cyfr. Zgłoszenie wsparcia legalnie cytuje ORD-48291507 w sposób, który uznałeś za w porządku do przepuszczenia. Nie chcesz osłabiać reguły — chcesz tylko, by ten jeden numer przestał działać.

Otwórz strumień Matches

W konsoli otwórz Guardrails → Matches. Filtruj po guardrail i typie reguły, by znaleźć wiersz trafienia ORD-48291507. (Aby zobaczyć dosłowny podłańcuch, Log raw content guardrail musiał być włączony, gdy dopasowanie zostało zarejestrowane — jest domyślnie wyłączony.)

Oznacz jako fałszywie pozytywne

Otwórz szczegół dopasowania i wybierz Mark as false positive. Jako Admin przestrzeni roboczej to stempluje dopasowanie i lustrzanie odbija supresję przestrzeni roboczej opartą na odcisku ustalenia.

Potwierdź, że jest stłumione

Otwórz listę Suppressions — nowy wpis się pojawia, opatrzony etykietą guardrail i reguły, z których pochodzi, oraz powodem “Marked as false positive from Matches”. Każdy członek przestrzeni roboczej może czytać tę listę.

Wyślij to samo żądanie znów

Używając klucza relay, wywołaj OrcaRouter dokładnie jak wcześniej — bez nowych nagłówków, bez zmiany SDK:

curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Status of order ORD-48291507?"}
    ]
  }'

Stłumione ustalenie jest pomijane — ORD-48291507 przechodzi — podczas gdy każdy inny numer zamówienia nadal się dopasowuje i jest maskowany jak wcześniej.

4. Supresja vs. alternatywy

Supresja to jeden z czterech sposobów wyciszenia hałaśliwej reguły. Wybierz najwęższy, który pasuje:

Podejście	Co zmienia	Kiedy po to sięgnąć
Mark FP	Jedno ustalenie (lub jedna reguła, przechwytywanie-off)	Konkretne łagodne trafienie; reguła jest poza tym poprawna
Edytuj regułę	Samo dopasowanie	Zły kształt/etap — napraw, potem przeprowadź ponowny eval
Akcja `flag`	Tylko obserwacja, bez blokowania	Nowa reguła, której jeszcze nie ufasz
Harness ewaluacyjny	Nic żywego — mierzy	Dowodzenie precyzji, zanim wyślesz

Nie zaklejaj systematycznie złej reguły, oznaczając FP za FP. Jeśli tłumisz ten sam kształt wielokrotnie, reguła jest źle skalibrowana — zakotwicz regex, zawęź listę keyword lub wybierz ciaśniejszą encję PII i zweryfikuj uruchomieniem eval.

5. Odwróć supresję

Nic tutaj nie jest jednokierunkowe:

Odznacz dopasowanie — ta sama akcja Admin, odwrócona, usuwa stempel FP dopasowania i (gdy żadne inne dopasowanie oznaczone FP nadal się na nie nie mapuje) zdejmuje supresję. Ustalenie działa znów przy następnym żądaniu.
Usuń supresję bezpośrednio — z listy Suppressions, akcja Developer+ usuwa wpis. Ten sam efekt: ustalenie jest znów żywe.

Ponieważ supresje to pamięć przestrzeni roboczej, odwrócenie jednej przywraca wychwyt dla ruchu każdego członka naraz — tak samo jak oznaczenie jej jako stłumionej dla wszystkich.

6. Powierzchnia API

To są trasy konsoli, uwierzytelniane twoją sesją — nie kluczami relay. Bramkuj rolą każdą akcję: oznaczenie dopasowania FP to Admin; odczyty supresji to Member; zapisy supresji to Developer+.

Metoda i ścieżka	Rola	Cel
`GET /api/guardrail/match`	Member	Listuj dopasowania do triażu.
`POST /api/guardrail/match/:id/mark-fp`	Admin	Oznacz dopasowanie jako fałszywie pozytywne (lustrzanie odbija supresję).
`DELETE /api/guardrail/match/:id/mark-fp`	Admin	Odznacz — przywróć ustalenie.
`GET /api/guardrail/suppressions`	Member	Listuj aktywne supresje przestrzeni roboczej.
`POST /api/guardrail/suppressions`	Developer+	Dodaj supresję bezpośrednio.
`DELETE /api/guardrail/suppressions/:id`	Developer+	Usuń supresję.

Endpointy mark-FP są rate-limited — to celowa, niskowolumenowa akcja triażu, nie API masowe. Sięgaj po harness ewaluacyjny, nie pętlę wywołań mark-FP, gdy stroisz całą politykę.

7. Dokąd dalej

Strumień dopasowań

Gdzie ląduje każda uruchomiona reguła — miejsce, z którego triażujesz, zanim cokolwiek oznaczysz.

Testowanie i eval

Udowodnij precyzję reguły wobec korpusu, zanim ją wyślesz — systematyczna naprawa, gdy supresja leczy objaw.

Logowanie i prywatność

Jak Log raw content kontroluje, czy supresja opiera się na dokładnym podłańcuchu, czy wraca do wyciszenia na poziomie reguły.

Referencja Guardrails

Kompletny silnik — każdy typ reguły, akcja i trasa.

Supresja rządzi ustaleniami treści. Aby wyciszyć hałaśliwą regułę firewalla agenta — dopasowanie narzędzia, które uznałeś za bezpieczne — to osobna powierzchnia; zobacz Firewall i jego strumień anomalii. Aby zrozumieć, gdzie guardrails i firewall się dzielą, przeczytaj Guardrails vs Firewall.

​1. Zmniejsz fałszywie pozytywne guardrail bez osłabiania reguły

Wytłum jedno ustalenie

Bez edycji reguły, bez ponownego wdrożenia

Pamięć obejmująca całą przestrzeń roboczą

Odwracalne

​2. Jak dopasowanie staje się supresją

​3. Jeden konkretny przykład

​4. Supresja vs. alternatywy

​5. Odwróć supresję

​6. Powierzchnia API

​7. Dokąd dalej

Strumień dopasowań

Testowanie i eval

Logowanie i prywatność

Referencja Guardrails

1. Zmniejsz fałszywie pozytywne guardrail bez osłabiania reguły

2. Jak dopasowanie staje się supresją

3. Jeden konkretny przykład

4. Supresja vs. alternatywy

5. Odwróć supresję

6. Powierzchnia API

7. Dokąd dalej