Brak atrybucji i analizy śledczej

Gdy coś idzie nie tak z agentem, pierwsze pytanie jest zawsze to samo: co on faktycznie zrobił i kto zmienił politykę, która mu na to pozwoliła? Bez śladu nie odpowiesz na żadne. Nie możesz pokazać audytorowi, że kontrola obowiązywała w dniu, o którym mowa, nie odróżnisz prawdziwego ataku od hałaśliwego fałszywego pozytywu i nie zrekonstruujesz uruchomienia, które wyciekło wiersz. OrcaRouter rejestruje odpowiedź na bieżąco. Każdy prześwietlony prompt, każde wywołanie narzędzia, każde zatwierdzenie i każda edycja polityki ląduje w zapytywalnym zapisie w zakresie przestrzeni roboczej — skorelowanym z powrotem z uruchomieniem i sesją agenta, które go wyprodukowały. Ta strona pokazuje, jak używać tego zapisu jako śladu audytu agenta AI: od pojedynczego podejrzanego uruchomienia do podpisanego raportu, który wręczasz audytorowi.

Wszystko tutaj jest w zakresie przestrzeni roboczej. Członkowie widzą ślad swojej przestrzeni roboczej; nic nie przekracza granic najemcy. Ślad jest produkowany przez funkcje, które już konfigurujesz — Guardrails i Firewall — więc włączenie egzekwowania włącza analizę śledczą w tym samym czasie.

1. Cztery zapisy stojące za śladem audytu agenta AI

Atrybucja pochodzi z czterech niezależnych strumieni, każdy skorelowany z tym samym uruchomieniem i sesją, abyś mógł między nimi pivotować:

Dopasowania guardraila (Matches)

Każda reguła treści, która odpaliła na żądaniu lub odpowiedzi — typ reguły, akcja, etap i łańcuch szczegółów. Czytelne dla Membera.

Zdarzenia i uruchomienia firewalla

Każdy werdykt wywołania narzędzia — allow, audit, deny, sanitize, pending_approval (wstrzymaj-do-zatwierdzenia) oraz rozwiązany werdykt reguły cap_cost — zwinięte per uruchomienie i sesja agenta. Developer+.

Decyzje zatwierdzeń

Kto zatwierdził lub odrzucił każde wstrzymane wywołanie narzędzia, rejestrowane jako akcja audytu.

Historia zmian polityk

Każda edycja guardraila i firewalla — wersjonowana, diffowalna, odwracalna — plus wiersz audytu przestrzeni roboczej per zmiana.

Tkanką łączną jest id uruchomienia agenta i sesji. Dopasowanie guardraila i zdarzenie firewalla z tej samej konwersacji niosą tę samą linię pochodzenia uruchomienia, więc „to uruchomienie zamaskowało e-mail, potem spróbowało fetcha, którego odmówiliśmy, potem zostało zatwierdzone do zapisu” czyta się jako jedna historia zamiast trzech rozłączonych logów.

2. Dopasowania guardraila — co zostało prześwietlone (Member)

Za każdym razem, gdy reguła guardraila odpala, brama zapisuje dopasowanie. Strumień żyje na stronie Guardrails (zakładka Matches) i jest czytelny dla każdego członka przestrzeni roboczej. Każde dopasowanie rejestruje typ reguły, podjętą akcję (block / mask / flag / annotate / spotlight), etap (input / output), łańcuch szczegółów oraz linię pochodzenia uruchomienia żądania, które je wyzwoliło. Wylistuj je, pogrupuj po guardrailu lub typie reguły, filtruj po akcji, wejdź w jedno dopasowanie lub wyeksportuj strumień do CSV.

Dopasowany podłańcuch (faktyczny e-mail, SSN) jest rejestrowany tylko wtedy, gdy przełącznik guardraila Log raw content jest włączony — a jest domyślnie wyłączony, postawa konserwatywna wobec prywatności. Z nim wyłączonym dostajesz informację, że reguła odpaliła, i jej meta-łańcuch szczegółów, ale nie surową wartość. Włącz go per guardrail, gdy potrzebujesz podłańcucha do triage; ustawienie jest nieretroaktywne.

Hałaśliwa reguła jest częścią śladu też. Oznacz dopasowanie jako fałszywy pozytyw przez POST /api/guardrail/match/:id/mark-fp (Admin), aby twój sygnał pozostał czysty, a twoje raporty nie liczyły nadmiarowo.

3. Zdarzenia i uruchomienia firewalla — co agent zrobił (Developer+)

Tam gdzie Matches pokrywają tekst, Events firewalla pokrywają akcje. Każda ewaluacja wywołania narzędzia jest logowana z jej werdyktem, powierzchnią, nazwą narzędzia i — co kluczowe — uruchomieniem i sesją agenta, do których należy. Odczyty na Events, zwinięciu Runs/sessions i trace per uruchomienie wymagają Developer+; lżejsze strumienie Discovered-tools i anomalii są otwarte dla każdego Membera. Widok Runs & sessions to koń roboczy analizy śledczej: zwija zdarzenia per uruchomienie agenta w rozbicie werdyktów, odrębne narzędzia i modele, których uruchomienie dotknęło, oraz znaczniki czasu pierwszego/ostatniego zaobserwowania — odpowiedź „co ten agent faktycznie zrobił” na jednym ekranie. Poza statycznymi werdyktami strumień anomalii flaguje odchylenia od wyuczonej bazowej linii godziny-tygodnia każdej przestrzeni roboczej (14-dniowa średnia krocząca) — skoki tempa i kosztu, retry_loop oraz przejścia novel_path — więc dozwolony-ale-nienormalny wzorzec wciąż wypływa w zapisie.

4. Decyzje zatwierdzeń — kto powiedział tak (akcja audytu)

Gdy reguła rozwiązuje się do pending_approval, wstrzymane wywołanie staje się przeglądem poza pasmem (zobacz przepływ HITL Firewalla). Decyzja jest częścią śladu: zatwierdzenie lub odrzucenie zapisuje wiersz audytu przestrzeni roboczej — firewall_approval_approve lub firewall_approval_reject — nazywając aktora. Decyzje są first-writer-wins i idempotentne, a jeśli leżąca u podstaw reguła zmieniła się po wstrzymaniu, wzbogacenie odnotowuje, że kontekst się przesunął. Więc wstrzymane-następnie-zatwierdzone wywołanie narzędzia jest w pełni przypisywalne od początku do końca: zdarzenie firewalla pokazuje wstrzymanie, wiersz audytu pokazuje, kto je zwolnił, a oba korelują się z tym samym uruchomieniem.

5. Audyt zmian polityki — kto zmienił reguły

Ślad zachowania agenta jest godny zaufania tylko wtedy, gdy możesz też udowodnić, jaka była polityka w tym czasie — i kto ją zmienił. Guardrails trzymają pełną historię wersji. Każde utworzenie, aktualizacja i usunięcie zapisuje wersjonowany wiersz historii w tej samej transakcji co zmiana. Otwórz History na guardrailu, aby zobaczyć każdą wersję z autorem i znacznikiem czasu, zdiffuj dowolne dwie i cofnij do starszej (cofnięcie jest rejestrowane jako nowa wersja — historia nigdy nie jest mutowana). Zmiany polityki, reguły i ustawień Firewalla zapisują każda wiersz audytu przestrzeni roboczej po zatwierdzeniu zmiany — firewall_policy_update, firewall_rule_create, firewall_settings_update i tak dalej — a zmiany poziomu autonomii (firewall_autonomy_applied / firewall_autonomy_undone) przechwytują migawkę stanu sprzed, która zasila cofnięcie jednym kliknięciem. Sekrety i bloby reguł nigdy nie są logowane.

Obie płaszczyzny logują zmianę oraz trzymają politykę odwracalną. Jeśli edycja reguły spowodowała regresję, ślad zmian polityki mówi ci, która edycja i kto ją wykonał — a ty cofasz ją bez ponownego wdrażania czegokolwiek.

6. Przepracowany przykład: prześledź jedno podejrzane uruchomienie

Załóżmy, że uruchomienie jest oflagowane za nieoczekiwane wywołanie wychodzące. Z konsoli, z sesją Developer+:

Otwórz uruchomienie w Firewall → Runs

Znajdź uruchomienie po jego id. Zwinięcie pokazuje każde narzędzie, które wywołało, i werdykt na każdym — w tym deny na narzędziu w kształcie fetch, które je oflagowało.

Pivotuj do zdarzeń

Wejdź w odmówione zdarzenie. Niesie nazwę narzędzia, dopasowaną regułę i powód, powierzchnię oraz linię pochodzenia uruchomienia/sesji — tę samą linię pochodzenia, której użyjesz, by ustawić w jednej linii stronę guardraila.

Sprawdź, co zostało prześwietlone na tym samym uruchomieniu

Otwórz Guardrails → Matches i przefiltruj do tego uruchomienia. Jeśli reguła Secrets Blocker lub PII odpaliła na promptcie, wiesz teraz, że agentowi wręczono wrażliwy materiał, zanim spróbował go eksfiltrować.

Potwierdź, że polityka obowiązywała

Otwórz History na guardrailu i wiersze audytu polityki firewalla. Potwierdź, że nikt nie osłabił istotnej reguły przed uruchomieniem — a jeśli to zrobił, masz autora i znacznik czasu.

Jedno uruchomienie, cztery skorelowane zapisy, bez archeologii log-grep. Dla samych obron eksfiltracji zobacz Eksfiltrację danych i Niebezpieczne wywołania narzędzi.

7. Podpisane raporty zgodności — ślad, który audytor może zweryfikować

Dla zewnętrznego dowodu powierzchnia Zgodności zamienia ten ślad w pojedynczy artefakt. Przeglądanie katalogu frameworków, pakietów i gotowości jest otwarte dla każdego Membera i darmowe; instalacja pakietu, generowanie raportu, przejście na żywo i ustawianie rezydencji danych to akcje Admina przestrzeni roboczej na planie płatnym (bramkowane po stronie serwera). Raport zgodności jest podpisany Ed25519 z hashem treści SHA256 i jest publicznie weryfikowalny — odbiorca sprawdza go bez konta OrcaRouter:

Endpoint	Cel
`GET /api/public/compliance/pubkey`	Klucz publiczny do weryfikacji.
`POST /api/public/compliance/verify`	Zweryfikuj podpis + hash raportu.
`GET /api/public/compliance/share/:token`	Link audytorski do udostępnienia raportu.

Raporty eksportują się jako CSV / JSON / PDF. Frameworki obejmują soc2, hipaa, gdpr, iso_27001, iso_42001, nist_ai_rmf, pci_dss, EU AI Act (eu_ai_act) oraz OWASP Top 10 dla aplikacji LLM (owasp_llm), między innymi — instalacja pakietu materializuje pasujące guardrails i polityki firewalla, więc kontrole, o których raportujesz, to kontrole faktycznie egzekwowane.

Rezydencja danych tutaj to region artefaktu raportu (us / eu / uk / ap / cn / global), ustawialny przez PUT /api/compliance/residency (Admin); odczyty międzyregionalne są wstrzymywane. Zarządza tym, gdzie żyje artefakt dowodowy — nie jest to geo-przypinanie twojego ruchu inferencji.

8. Retencja i prawo do usunięcia

Zapis śledczy jest ograniczony, nie wieczny. Logi żądań domyślnie mają 30 dni retencji i są zaciskane po stronie serwera do twardego maksimum 180 dni. Gdy użytkownik samo-usuwa się, obowiązuje okno 30-dniowej karencji, po którym jego PII jest szorowane, a kaskada czyści jego dopasowania guardraila, logi żądań i zdarzenia firewalla — spełniając obowiązki prawa do usunięcia / DSAR, jednocześnie utrzymując zagregowaną historię audytu nienaruszoną.

9. Dokąd dalej

Referencja Guardrails

Matches, logowanie surowej treści, historia wersji i pełny zestaw reguł.

Referencja Firewalla

Events, Runs, anomalie, zatwierdzenia i log audytu.

Nadmierna sprawczość

Ogranicz, co agentowi wolno zrobić, zanim zadziała.

Tryby egzekwowania

Audit, cień i obserwacja — jak zbudować ślad, zanim zaczniesz egzekwować.

​1. Cztery zapisy stojące za śladem audytu agenta AI

Dopasowania guardraila (Matches)

Zdarzenia i uruchomienia firewalla

Decyzje zatwierdzeń

Historia zmian polityk

​2. Dopasowania guardraila — co zostało prześwietlone (Member)

​3. Zdarzenia i uruchomienia firewalla — co agent zrobił (Developer+)

​4. Decyzje zatwierdzeń — kto powiedział tak (akcja audytu)

​5. Audyt zmian polityki — kto zmienił reguły

​6. Przepracowany przykład: prześledź jedno podejrzane uruchomienie

​7. Podpisane raporty zgodności — ślad, który audytor może zweryfikować

​8. Retencja i prawo do usunięcia

​9. Dokąd dalej

Referencja Guardrails

Referencja Firewalla

Nadmierna sprawczość

Tryby egzekwowania

1. Cztery zapisy stojące za śladem audytu agenta AI

2. Dopasowania guardraila — co zostało prześwietlone (Member)

3. Zdarzenia i uruchomienia firewalla — co agent zrobił (Developer+)

4. Decyzje zatwierdzeń — kto powiedział tak (akcja audytu)

5. Audyt zmian polityki — kto zmienił reguły

6. Przepracowany przykład: prześledź jedno podejrzane uruchomienie

7. Podpisane raporty zgodności — ślad, który audytor może zweryfikować

8. Retencja i prawo do usunięcia

9. Dokąd dalej