Wszystko tutaj jest w zakresie przestrzeni roboczej. Członkowie widzą ślad
swojej przestrzeni roboczej; nic nie przekracza granic najemcy. Ślad jest
produkowany przez funkcje, które już konfigurujesz —
Guardrails i Firewall —
więc włączenie egzekwowania włącza analizę śledczą w tym samym czasie.
1. Cztery zapisy stojące za śladem audytu agenta AI
Atrybucja pochodzi z czterech niezależnych strumieni, każdy skorelowany z tym samym uruchomieniem i sesją, abyś mógł między nimi pivotować:Dopasowania guardraila (Matches)
Każda reguła treści, która odpaliła na żądaniu lub odpowiedzi — typ
reguły, akcja, etap i łańcuch szczegółów. Czytelne dla Membera.
Zdarzenia i uruchomienia firewalla
Każdy werdykt wywołania narzędzia —
allow, audit, deny, sanitize,
pending_approval (wstrzymaj-do-zatwierdzenia) oraz rozwiązany werdykt
reguły cap_cost — zwinięte per uruchomienie i sesja agenta. Developer+.Decyzje zatwierdzeń
Kto zatwierdził lub odrzucił każde wstrzymane wywołanie narzędzia,
rejestrowane jako akcja audytu.
Historia zmian polityk
Każda edycja guardraila i firewalla — wersjonowana, diffowalna,
odwracalna — plus wiersz audytu przestrzeni roboczej per zmiana.
2. Dopasowania guardraila — co zostało prześwietlone (Member)
Za każdym razem, gdy reguła guardraila odpala, brama zapisuje dopasowanie. Strumień żyje na stronie Guardrails (zakładka Matches) i jest czytelny dla każdego członka przestrzeni roboczej. Każde dopasowanie rejestruje typ reguły, podjętą akcję (block /
mask / flag / annotate / spotlight), etap (input / output),
łańcuch szczegółów oraz linię pochodzenia uruchomienia żądania, które
je wyzwoliło. Wylistuj je, pogrupuj po guardrailu lub typie reguły, filtruj po
akcji, wejdź w jedno dopasowanie lub wyeksportuj strumień do CSV.
Hałaśliwa reguła jest częścią śladu też. Oznacz dopasowanie jako fałszywy
pozytyw przez POST /api/guardrail/match/:id/mark-fp (Admin), aby twój sygnał
pozostał czysty, a twoje raporty nie liczyły nadmiarowo.
3. Zdarzenia i uruchomienia firewalla — co agent zrobił (Developer+)
Tam gdzie Matches pokrywają tekst, Events firewalla pokrywają akcje. Każda ewaluacja wywołania narzędzia jest logowana z jej werdyktem, powierzchnią, nazwą narzędzia i — co kluczowe — uruchomieniem i sesją agenta, do których należy. Odczyty na Events, zwinięciu Runs/sessions i trace per uruchomienie wymagają Developer+; lżejsze strumienie Discovered-tools i anomalii są otwarte dla każdego Membera. Widok Runs & sessions to koń roboczy analizy śledczej: zwija zdarzenia per uruchomienie agenta w rozbicie werdyktów, odrębne narzędzia i modele, których uruchomienie dotknęło, oraz znaczniki czasu pierwszego/ostatniego zaobserwowania — odpowiedź „co ten agent faktycznie zrobił” na jednym ekranie. Poza statycznymi werdyktami strumień anomalii flaguje odchylenia od wyuczonej bazowej linii godziny-tygodnia każdej przestrzeni roboczej (14-dniowa średnia krocząca) — skoki tempa i kosztu,retry_loop oraz
przejścia novel_path — więc dozwolony-ale-nienormalny wzorzec wciąż wypływa
w zapisie.
4. Decyzje zatwierdzeń — kto powiedział tak (akcja audytu)
Gdy reguła rozwiązuje się dopending_approval, wstrzymane wywołanie staje się
przeglądem poza pasmem (zobacz
przepływ HITL
Firewalla). Decyzja jest częścią śladu: zatwierdzenie lub odrzucenie
zapisuje wiersz audytu przestrzeni roboczej — firewall_approval_approve lub
firewall_approval_reject — nazywając aktora. Decyzje są first-writer-wins i
idempotentne, a jeśli leżąca u podstaw reguła zmieniła się po wstrzymaniu,
wzbogacenie odnotowuje, że kontekst się przesunął.
Więc wstrzymane-następnie-zatwierdzone wywołanie narzędzia jest w pełni
przypisywalne od początku do końca: zdarzenie firewalla pokazuje wstrzymanie,
wiersz audytu pokazuje, kto je zwolnił, a oba korelują się z tym samym
uruchomieniem.
5. Audyt zmian polityki — kto zmienił reguły
Ślad zachowania agenta jest godny zaufania tylko wtedy, gdy możesz też udowodnić, jaka była polityka w tym czasie — i kto ją zmienił. Guardrails trzymają pełną historię wersji. Każde utworzenie, aktualizacja i usunięcie zapisuje wersjonowany wiersz historii w tej samej transakcji co zmiana. Otwórz History na guardrailu, aby zobaczyć każdą wersję z autorem i znacznikiem czasu, zdiffuj dowolne dwie i cofnij do starszej (cofnięcie jest rejestrowane jako nowa wersja — historia nigdy nie jest mutowana). Zmiany polityki, reguły i ustawień Firewalla zapisują każda wiersz audytu przestrzeni roboczej po zatwierdzeniu zmiany —firewall_policy_update,
firewall_rule_create, firewall_settings_update i tak dalej — a zmiany
poziomu autonomii (firewall_autonomy_applied /
firewall_autonomy_undone) przechwytują migawkę stanu sprzed, która zasila
cofnięcie jednym kliknięciem. Sekrety i bloby reguł nigdy nie są logowane.
6. Przepracowany przykład: prześledź jedno podejrzane uruchomienie
Załóżmy, że uruchomienie jest oflagowane za nieoczekiwane wywołanie wychodzące. Z konsoli, z sesją Developer+:Otwórz uruchomienie w Firewall → Runs
Znajdź uruchomienie po jego id. Zwinięcie pokazuje każde narzędzie, które
wywołało, i werdykt na każdym — w tym
deny na narzędziu w kształcie
fetch, które je oflagowało.Pivotuj do zdarzeń
Wejdź w odmówione zdarzenie. Niesie nazwę narzędzia, dopasowaną regułę i
powód, powierzchnię oraz linię pochodzenia uruchomienia/sesji — tę samą
linię pochodzenia, której użyjesz, by ustawić w jednej linii stronę
guardraila.
Sprawdź, co zostało prześwietlone na tym samym uruchomieniu
Otwórz Guardrails → Matches i przefiltruj do tego uruchomienia. Jeśli
reguła Secrets Blocker lub PII odpaliła na promptcie, wiesz teraz, że
agentowi wręczono wrażliwy materiał, zanim spróbował go eksfiltrować.
7. Podpisane raporty zgodności — ślad, który audytor może zweryfikować
Dla zewnętrznego dowodu powierzchnia Zgodności zamienia ten ślad w pojedynczy artefakt. Przeglądanie katalogu frameworków, pakietów i gotowości jest otwarte dla każdego Membera i darmowe; instalacja pakietu, generowanie raportu, przejście na żywo i ustawianie rezydencji danych to akcje Admina przestrzeni roboczej na planie płatnym (bramkowane po stronie serwera). Raport zgodności jest podpisany Ed25519 z hashem treści SHA256 i jest publicznie weryfikowalny — odbiorca sprawdza go bez konta OrcaRouter:| Endpoint | Cel |
|---|---|
GET /api/public/compliance/pubkey | Klucz publiczny do weryfikacji. |
POST /api/public/compliance/verify | Zweryfikuj podpis + hash raportu. |
GET /api/public/compliance/share/:token | Link audytorski do udostępnienia raportu. |
soc2,
hipaa, gdpr, iso_27001, iso_42001, nist_ai_rmf, pci_dss, EU AI Act
(eu_ai_act) oraz OWASP Top 10 dla aplikacji LLM (owasp_llm), między
innymi — instalacja pakietu materializuje pasujące guardrails i polityki
firewalla, więc kontrole, o których raportujesz, to kontrole faktycznie
egzekwowane.
Rezydencja danych tutaj to region artefaktu raportu (
us / eu /
uk / ap / cn / global), ustawialny przez PUT /api/compliance/residency
(Admin); odczyty międzyregionalne są wstrzymywane. Zarządza tym, gdzie żyje
artefakt dowodowy — nie jest to geo-przypinanie twojego ruchu inferencji.8. Retencja i prawo do usunięcia
Zapis śledczy jest ograniczony, nie wieczny. Logi żądań domyślnie mają 30 dni retencji i są zaciskane po stronie serwera do twardego maksimum 180 dni. Gdy użytkownik samo-usuwa się, obowiązuje okno 30-dniowej karencji, po którym jego PII jest szorowane, a kaskada czyści jego dopasowania guardraila, logi żądań i zdarzenia firewalla — spełniając obowiązki prawa do usunięcia / DSAR, jednocześnie utrzymując zagregowaną historię audytu nienaruszoną.9. Dokąd dalej
Referencja Guardrails
Matches, logowanie surowej treści, historia wersji i pełny zestaw reguł.
Referencja Firewalla
Events, Runs, anomalie, zatwierdzenia i log audytu.
Nadmierna sprawczość
Ogranicz, co agentowi wolno zrobić, zanim zadziała.
Tryby egzekwowania
Audit, cień i obserwacja — jak zbudować ślad, zanim zaczniesz egzekwować.
