Przejdź do głównej treści
Gdy coś idzie nie tak z agentem, pierwsze pytanie jest zawsze to samo: co on faktycznie zrobił i kto zmienił politykę, która mu na to pozwoliła? Bez śladu nie odpowiesz na żadne. Nie możesz pokazać audytorowi, że kontrola obowiązywała w dniu, o którym mowa, nie odróżnisz prawdziwego ataku od hałaśliwego fałszywego pozytywu i nie zrekonstruujesz uruchomienia, które wyciekło wiersz. OrcaRouter rejestruje odpowiedź na bieżąco. Każdy prześwietlony prompt, każde wywołanie narzędzia, każde zatwierdzenie i każda edycja polityki ląduje w zapytywalnym zapisie w zakresie przestrzeni roboczej — skorelowanym z powrotem z uruchomieniem i sesją agenta, które go wyprodukowały. Ta strona pokazuje, jak używać tego zapisu jako śladu audytu agenta AI: od pojedynczego podejrzanego uruchomienia do podpisanego raportu, który wręczasz audytorowi.
Wszystko tutaj jest w zakresie przestrzeni roboczej. Członkowie widzą ślad swojej przestrzeni roboczej; nic nie przekracza granic najemcy. Ślad jest produkowany przez funkcje, które już konfigurujesz — Guardrails i Firewall — więc włączenie egzekwowania włącza analizę śledczą w tym samym czasie.

1. Cztery zapisy stojące za śladem audytu agenta AI

Atrybucja pochodzi z czterech niezależnych strumieni, każdy skorelowany z tym samym uruchomieniem i sesją, abyś mógł między nimi pivotować:

Dopasowania guardraila (Matches)

Każda reguła treści, która odpaliła na żądaniu lub odpowiedzi — typ reguły, akcja, etap i łańcuch szczegółów. Czytelne dla Membera.

Zdarzenia i uruchomienia firewalla

Każdy werdykt wywołania narzędzia — allow, audit, deny, sanitize, pending_approval (wstrzymaj-do-zatwierdzenia) oraz rozwiązany werdykt reguły cap_cost — zwinięte per uruchomienie i sesja agenta. Developer+.

Decyzje zatwierdzeń

Kto zatwierdził lub odrzucił każde wstrzymane wywołanie narzędzia, rejestrowane jako akcja audytu.

Historia zmian polityk

Każda edycja guardraila i firewalla — wersjonowana, diffowalna, odwracalna — plus wiersz audytu przestrzeni roboczej per zmiana.
Tkanką łączną jest id uruchomienia agenta i sesji. Dopasowanie guardraila i zdarzenie firewalla z tej samej konwersacji niosą tę samą linię pochodzenia uruchomienia, więc „to uruchomienie zamaskowało e-mail, potem spróbowało fetcha, którego odmówiliśmy, potem zostało zatwierdzone do zapisu” czyta się jako jedna historia zamiast trzech rozłączonych logów.

2. Dopasowania guardraila — co zostało prześwietlone (Member)

Za każdym razem, gdy reguła guardraila odpala, brama zapisuje dopasowanie. Strumień żyje na stronie Guardrails (zakładka Matches) i jest czytelny dla każdego członka przestrzeni roboczej. Każde dopasowanie rejestruje typ reguły, podjętą akcję (block / mask / flag / annotate / spotlight), etap (input / output), łańcuch szczegółów oraz linię pochodzenia uruchomienia żądania, które je wyzwoliło. Wylistuj je, pogrupuj po guardrailu lub typie reguły, filtruj po akcji, wejdź w jedno dopasowanie lub wyeksportuj strumień do CSV.
Dopasowany podłańcuch (faktyczny e-mail, SSN) jest rejestrowany tylko wtedy, gdy przełącznik guardraila Log raw content jest włączony — a jest domyślnie wyłączony, postawa konserwatywna wobec prywatności. Z nim wyłączonym dostajesz informację, że reguła odpaliła, i jej meta-łańcuch szczegółów, ale nie surową wartość. Włącz go per guardrail, gdy potrzebujesz podłańcucha do triage; ustawienie jest nieretroaktywne.
Hałaśliwa reguła jest częścią śladu też. Oznacz dopasowanie jako fałszywy pozytyw przez POST /api/guardrail/match/:id/mark-fp (Admin), aby twój sygnał pozostał czysty, a twoje raporty nie liczyły nadmiarowo.

3. Zdarzenia i uruchomienia firewalla — co agent zrobił (Developer+)

Tam gdzie Matches pokrywają tekst, Events firewalla pokrywają akcje. Każda ewaluacja wywołania narzędzia jest logowana z jej werdyktem, powierzchnią, nazwą narzędzia i — co kluczowe — uruchomieniem i sesją agenta, do których należy. Odczyty na Events, zwinięciu Runs/sessions i trace per uruchomienie wymagają Developer+; lżejsze strumienie Discovered-tools i anomalii są otwarte dla każdego Membera. Widok Runs & sessions to koń roboczy analizy śledczej: zwija zdarzenia per uruchomienie agenta w rozbicie werdyktów, odrębne narzędzia i modele, których uruchomienie dotknęło, oraz znaczniki czasu pierwszego/ostatniego zaobserwowania — odpowiedź „co ten agent faktycznie zrobił” na jednym ekranie. Poza statycznymi werdyktami strumień anomalii flaguje odchylenia od wyuczonej bazowej linii godziny-tygodnia każdej przestrzeni roboczej (14-dniowa średnia krocząca) — skoki tempa i kosztu, retry_loop oraz przejścia novel_path — więc dozwolony-ale-nienormalny wzorzec wciąż wypływa w zapisie.

4. Decyzje zatwierdzeń — kto powiedział tak (akcja audytu)

Gdy reguła rozwiązuje się do pending_approval, wstrzymane wywołanie staje się przeglądem poza pasmem (zobacz przepływ HITL Firewalla). Decyzja jest częścią śladu: zatwierdzenie lub odrzucenie zapisuje wiersz audytu przestrzeni roboczej — firewall_approval_approve lub firewall_approval_reject — nazywając aktora. Decyzje są first-writer-wins i idempotentne, a jeśli leżąca u podstaw reguła zmieniła się po wstrzymaniu, wzbogacenie odnotowuje, że kontekst się przesunął. Więc wstrzymane-następnie-zatwierdzone wywołanie narzędzia jest w pełni przypisywalne od początku do końca: zdarzenie firewalla pokazuje wstrzymanie, wiersz audytu pokazuje, kto je zwolnił, a oba korelują się z tym samym uruchomieniem.

5. Audyt zmian polityki — kto zmienił reguły

Ślad zachowania agenta jest godny zaufania tylko wtedy, gdy możesz też udowodnić, jaka była polityka w tym czasie — i kto ją zmienił. Guardrails trzymają pełną historię wersji. Każde utworzenie, aktualizacja i usunięcie zapisuje wersjonowany wiersz historii w tej samej transakcji co zmiana. Otwórz History na guardrailu, aby zobaczyć każdą wersję z autorem i znacznikiem czasu, zdiffuj dowolne dwie i cofnij do starszej (cofnięcie jest rejestrowane jako nowa wersja — historia nigdy nie jest mutowana). Zmiany polityki, reguły i ustawień Firewalla zapisują każda wiersz audytu przestrzeni roboczej po zatwierdzeniu zmiany — firewall_policy_update, firewall_rule_create, firewall_settings_update i tak dalej — a zmiany poziomu autonomii (firewall_autonomy_applied / firewall_autonomy_undone) przechwytują migawkę stanu sprzed, która zasila cofnięcie jednym kliknięciem. Sekrety i bloby reguł nigdy nie są logowane.
Obie płaszczyzny logują zmianę oraz trzymają politykę odwracalną. Jeśli edycja reguły spowodowała regresję, ślad zmian polityki mówi ci, która edycja i kto ją wykonał — a ty cofasz ją bez ponownego wdrażania czegokolwiek.

6. Przepracowany przykład: prześledź jedno podejrzane uruchomienie

Załóżmy, że uruchomienie jest oflagowane za nieoczekiwane wywołanie wychodzące. Z konsoli, z sesją Developer+:
1

Otwórz uruchomienie w Firewall → Runs

Znajdź uruchomienie po jego id. Zwinięcie pokazuje każde narzędzie, które wywołało, i werdykt na każdym — w tym deny na narzędziu w kształcie fetch, które je oflagowało.
2

Pivotuj do zdarzeń

Wejdź w odmówione zdarzenie. Niesie nazwę narzędzia, dopasowaną regułę i powód, powierzchnię oraz linię pochodzenia uruchomienia/sesji — tę samą linię pochodzenia, której użyjesz, by ustawić w jednej linii stronę guardraila.
3

Sprawdź, co zostało prześwietlone na tym samym uruchomieniu

Otwórz Guardrails → Matches i przefiltruj do tego uruchomienia. Jeśli reguła Secrets Blocker lub PII odpaliła na promptcie, wiesz teraz, że agentowi wręczono wrażliwy materiał, zanim spróbował go eksfiltrować.
4

Potwierdź, że polityka obowiązywała

Otwórz History na guardrailu i wiersze audytu polityki firewalla. Potwierdź, że nikt nie osłabił istotnej reguły przed uruchomieniem — a jeśli to zrobił, masz autora i znacznik czasu.
Jedno uruchomienie, cztery skorelowane zapisy, bez archeologii log-grep. Dla samych obron eksfiltracji zobacz Eksfiltrację danych i Niebezpieczne wywołania narzędzi.

7. Podpisane raporty zgodności — ślad, który audytor może zweryfikować

Dla zewnętrznego dowodu powierzchnia Zgodności zamienia ten ślad w pojedynczy artefakt. Przeglądanie katalogu frameworków, pakietów i gotowości jest otwarte dla każdego Membera i darmowe; instalacja pakietu, generowanie raportu, przejście na żywo i ustawianie rezydencji danych to akcje Admina przestrzeni roboczej na planie płatnym (bramkowane po stronie serwera). Raport zgodności jest podpisany Ed25519 z hashem treści SHA256 i jest publicznie weryfikowalny — odbiorca sprawdza go bez konta OrcaRouter:
EndpointCel
GET /api/public/compliance/pubkeyKlucz publiczny do weryfikacji.
POST /api/public/compliance/verifyZweryfikuj podpis + hash raportu.
GET /api/public/compliance/share/:tokenLink audytorski do udostępnienia raportu.
Raporty eksportują się jako CSV / JSON / PDF. Frameworki obejmują soc2, hipaa, gdpr, iso_27001, iso_42001, nist_ai_rmf, pci_dss, EU AI Act (eu_ai_act) oraz OWASP Top 10 dla aplikacji LLM (owasp_llm), między innymi — instalacja pakietu materializuje pasujące guardrails i polityki firewalla, więc kontrole, o których raportujesz, to kontrole faktycznie egzekwowane.
Rezydencja danych tutaj to region artefaktu raportu (us / eu / uk / ap / cn / global), ustawialny przez PUT /api/compliance/residency (Admin); odczyty międzyregionalne są wstrzymywane. Zarządza tym, gdzie żyje artefakt dowodowy — nie jest to geo-przypinanie twojego ruchu inferencji.

8. Retencja i prawo do usunięcia

Zapis śledczy jest ograniczony, nie wieczny. Logi żądań domyślnie mają 30 dni retencji i są zaciskane po stronie serwera do twardego maksimum 180 dni. Gdy użytkownik samo-usuwa się, obowiązuje okno 30-dniowej karencji, po którym jego PII jest szorowane, a kaskada czyści jego dopasowania guardraila, logi żądań i zdarzenia firewalla — spełniając obowiązki prawa do usunięcia / DSAR, jednocześnie utrzymując zagregowaną historię audytu nienaruszoną.

9. Dokąd dalej

Referencja Guardrails

Matches, logowanie surowej treści, historia wersji i pełny zestaw reguł.

Referencja Firewalla

Events, Runs, anomalie, zatwierdzenia i log audytu.

Nadmierna sprawczość

Ogranicz, co agentowi wolno zrobić, zanim zadziała.

Tryby egzekwowania

Audit, cień i obserwacja — jak zbudować ślad, zanim zaczniesz egzekwować.