FAQ bezpieczeństwa - OrcaRouter

Przeczytałeś stronę kontroli i masz jedno pytanie przed wdrożeniem. To jest FAQ bezpieczeństwa agenta ai — przekrojowe pytania, które obejmują całą sekcję Zero-Trust, odpowiedziane w jednym miejscu, każde linkujące do referencji po głębię. Jeśli jesteś zupełnie nowy w sekcji, zacznij od Zabezpieczania agentów AI i stosu kontrolnego; ta strona zakłada, że wiesz, że są dwie płaszczyzny egzekwowania — Guardrails (tekst promptu/odpowiedzi) i Firewall (akcje agenta) — i potrzebujesz tylko dopiąć krawędzie.

1. FAQ bezpieczeństwa agenta ai — zacznij tutaj

30-sekundowa mapa, która kontrola odpowiada na które pytanie:

Pytasz o…	Płaszczyzna	Przeczytaj
Tekst w promptach lub odpowiedziach (PII, sekrety, jailbreaki)	Guardrails	Guardrails
Wywołania narzędzi, MCP, egress, skille	Firewall	Firewall
Która odpaliła na `400`	Obie	Dlaczego zostało zablokowane?

Każda blokada bezpieczeństwa na hostowanej bramie to HTTP 400 z czytelnym maszynowo code. Odczytaj kod najpierw — rozwidla cię do właściwego strumienia. Pełna tabela żyje w Kodach błędów.

2. Guardrails — prześwietlanie treści

Co się dzieje, jeśli żaden guardrail nie rozwiąże się na żądaniu?

Nic. Rozwiązywanie to: jawny guardrail_id na kluczu (jeśli istnieje i jest włączony) → w przeciwnym razie domyślny is_default guardrail przestrzeni roboczej → w przeciwnym razie brak egzekwowania. Wyłączone jawne dołączenie to przełącznik wyłączający — nie wraca do domyślnego. Z niczym rozwiązanym żądanie jest bajt-identyczne z przestrzenią roboczą, która nigdy nie włączyła tej funkcji.

Czy zablokowane żądanie kosztuje mnie kwotę?

Nie. Akcja block zwraca 400 guardrail_blocked i nie kosztuje kwoty — blokada na etapie wejścia odpala przed metrowaniem; blokada na etapie wyjścia zwraca wstępnie skonsumowaną kwotę. Jest też oznaczona skip-retry: ponowne uruchomienie identycznego promptu po prostu znów blokuje.

Jakie są typy reguł i akcje?

Typy reguł: keyword, regex, pii, max_chars, external, llm_judge, grounding. Akcje: block (odrzuć), mask (zredaguj i prześlij), flag (tylko log, bez zmiany ruchu). Etapy: input, output, both. Zobacz Guardrails po każdą.

Które encje PII są wykrywane i jak wygląda maskowanie?

Wbudowane encje obejmują email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address, plus typy regionalne (jp_mynumber, kr_rrn, cn_resident_id). Akcja mask renderuje typowany tag — jane@acme.com → [EMAIL], SSN → [SSN]. Możesz nawarstwić do 25 własnych encji regex per reguła (z opcjonalną sumą kontrolną Luhn) i nadpisać akcję per encja przez entity_actions.

Czy maskowanie wyjścia jest egzekwowane na strumieniowanych odpowiedziach?

Block wyjścia jest egzekwowany w obie strony — odpowiedzi niestrumieniowane są prześwietlane przed zwrotem, a skaner strumieniowy ucina strumień w locie. Mask wyjścia jest obecnie tylko niestrumieniowy; na strumieniowanej odpowiedzi chunk przechodzi niezamaskowany (przepisywanie strumienia w paśmie jest na roadmapie). Maskowanie na etapie wejścia — sanityzacja żądania, zanim model je zobaczy — jest żywe niezależnie. Preset PII Shield maskuje na etapie wejścia dziś.

Ile kosztuje sędzia LLM?

Reguły keyword / regex / pii / max_chars nie robią wywołania modelu i nic nie naliczają. Reguła llm_judge uruchamia sprawdzenie semantyczne przez model przestrzeni roboczej (ograniczone przez judge_timeout_ms, domyślnie fail-open) i jest rozliczana jako osobna podlinia sędziego. Reguła grounding ocenia wierność odpowiedzi wobec pobranych źródeł żądania (próg domyślnie 0.7) w ten sam sposób.

Czy widzę, co reguła faktycznie dopasowała?

Otwórz strumień Matches (GET /api/guardrail/match, Member). Każdy wiersz rejestruje typ reguły, akcję, etap i łańcuch detali — oraz dopasowany podłańcuch tylko jeśli „Log raw content” jest włączone dla tego guardraila (domyślnie wyłączone, postawa konserwatywna wobec prywatności). Błędna blokada? Oznacz ją jako fałszywie pozytywną (POST /api/guardrail/match/:id/mark-fp, Admin).

Czy skanujecie zależności pod kątem znanych CVE?

Guardrail może udekorować prompt doradztwem bezpieczeństwa kodu (np. notatką CVE/SBOM o referowanym pakiecie) bez blokowania lub maskowania tekstu. To warstwa adnotacji, która wzbogaca żądanie, zamiast je odrzucać — odrębna od akcji block / mask / flag, które autorujesz bezpośrednio. Podłącz skaner pod Integrations, by to napędzić.

3. Firewall — akcje agenta

Jak firewall różni się od guardrails w rozwiązywaniu?

Jedna kluczowa różnica: wyłączona dołączona polityka firewalla wraca do domyślnej przestrzeni roboczej, podczas gdy wyłączony dołączony guardrail rozwiązuje się do żadnego. Poza tym oba dołączają przez klucz (firewall_policy_id / guardrail_id) i dzielą fallback domyślnej przestrzeni roboczej. Zobacz Guardrails vs Firewall.

Jakie są werdykty i powierzchnie?

Werdykty: allow, audit, deny, sanitize, pending_approval, cap_cost. default_verdict to allow / audit / deny (audit domyślnie). Powierzchnie: inbound (ogłoszone narzędzia), response (tool_calls wyemitowane przez model), mcp (tools/call), egress (wychodzący host/IP/CIDR). Słownik werdyktów dekoduje każdą.

Czy `sanitize` czyści to, co narzędzie zwraca?

Nie — i to powszechne nieporozumienie. Werdykt sanitize redaguje dopasowane podłańcuchy z argumentów wywołania narzędzia tylko, nigdy treści, którą narzędzie zwraca. Na powierzchni inbound (brak jeszcze argumentów czasu wywołania) sanitize eskaluje do deny.

Co robią poziomy autonomii?

Jeden przełącznik ustawia twoją całą postawę, zapisując prawdziwe edytowalne wiersze autonomy_*:
• balanced (rekomendowany start) — domyślnie audit, deny destrukcyjny shell, PII Shield w trybie tylko-audit (flaguje PII).
• tight — default-deny, deny destrukcyjny shell, deny narzędzia fetch w kształcie SSRF, PII Shield + Secrets Blocker egzekwowane.
• permissive — tylko obserwacja.
Cofnięcie jednym kliknięciem przywraca poprzedni stan z migawki audytu, którą zastosowanie zapisało. To pojedynczy krok — cofnięcie jest niedostępne, gdy późniejsze zastosowanie (lub ręczna edycja polityki) wyparło tę migawkę. Zobacz Tryby egzekwowania.

Czy preset SSRF blokuje prywatne IP i metadane chmury?

Nie przez preset. Preset SSRF autonomii tight odmawia powszechnym nazwom narzędzi w kształcie fetch (http_fetch, web_search, fetch_url, request). Aby odmawiać po celu — zakresy RFC-1918, IP metadanych chmury, konkretne CIDR — zautoruj własną regułę odmowy hosta/CIDR na powierzchni egress. Żaden preset nie dostarcza reguł CIDR za ciebie. Zobacz Egress i eksfiltracja danych.

Jak wdrożyć politykę bez łamania ruchu?

Włącz tryb cienia (per polityka): polityka ewaluuje i loguje, ale degraduje każdy egzekwujący werdykt do audit, poprzedzając powód [shadow] would …. Obserwuj widoki Events i Runs, potem wyłącz tryb cienia, by egzekwować. Tryb obserwacji na poziomie przestrzeni roboczej (firewall_observe_mode) to komplementarne pokrętło odkrywania — loguje niepokryte wywołania jako luki w Discovered Tools.

Jak działa zatwierdzenie przez człowieka (HITL)?

Werdykt pending_approval zwraca 400 firewall_approval_pending z id zatwierdzenia. Recenzent rozstrzyga je z konsoli (Developer+) lub przez HMAC webhook callback (POST /api/v1/firewall/approvals/:id/callback). Agent odpytuje GET /api/v1/firewall/approvals/:id i ponownie wysyła oryginalne wywołanie z jednorazowym nagłówkiem X-OrcaRouter-Firewall-Approval. Zobacz Niebezpieczne wywołania narzędzi.

Czego szuka wykrywanie anomalii?

Skoki tempa/kosztu oceniane wobec wyuczonej bazowej linii godziny-tygodnia (14-dniowej), plus retry_loop i novel_path (przejście narzędzie-do-narzędzia nigdy wcześniej niewidziane). Strumień jest czytelny dla Member; uśpij anomalię na do 7 dni. Zobacz Nadmierna sprawczość.

4. MCP, klucze i dostęp do bramy

Jak zarządzane są serwery MCP?

Zarejestruj serwer (name, endpoint, auth_mode z none/bearer/oauth/basic, zaszyfrowane poświadczenia), a brama MCP ewaluuje każde tools/call na powierzchni mcp przed dyspozycją. Zdrowie jest śledzone (ok/degraded/down); sonduj je przez POST /api/workspace/firewall/mcp_servers/:id/probe. Sonda też ustanawia bazową linię ogłoszonego schematu narzędzi serwera — późniejszy dryf przerzuca jego status schematu z verified na changed (sygnał „rug-pull”), a ty albo re-ustanawiasz bazę (zatwierdzasz), albo quarantine serwer. Więc zarządzanie to ewaluacja per wywołanie plus śledzenie integralności schematu i pasm ryzyka skilli. Zobacz Firewall MCP i Zatruwanie narzędzi MCP.

Co się dzieje z ryzykownym lub auto-wykrytym skillem?

Każdy skill jest skanowany w pasmo ryzyka z trybem egzekwowania allow / quarantine / block. Poddany kwarantannie skill jest wstrzymany do zatwierdzenia; auto-wykryte skille pozostają poddane kwarantannie, dopóki człowiek ich nie przejrzy. Tryb jedzie na wierzchu werdyktu reguły.

Które pola klucza blokują agenta?

model_limits (+ model_limits_enabled), allow_ips, credit_limit_usd (0 = nielimitowany), expired_time (-1 = nigdy), environment, guardrail_id, firewall_policy_id oraz is_firewall_gateway. Połącz je po najmniejszą sprawczość — zobacz Zakres, klucze i polityki. Klucze są maskowane na wyświetleniu.

Dlaczego dostaję 403 na `/api/v1/firewall/*`?

Te trasy bramy (POST /evaluate, POST /evaluate_plan, ANY /mcp) wymagają klucza z is_firewall_gateway=true — dedykowanego tokenu w zakresie firewall-gateway, nie twojego klucza relay sk-orca-…. Wybicie jednego i odczyt jego jawnego tekstu to Admin+.

Jaka jest różnica między konfigurowaniem a wywoływaniem?

Konfiguracja działa w konsoli — guardrails, polityki firewalla, serwery MCP i compliance są zarządzane pod twoją sesją / tokenem dostępu (UserAuth), a każdy zapis jest bramkowany rolą (Developer+ dla zapisów polityki i guardraila). Tylko twój ruch relay /v1/* używa klucza sk-orca-…; tylko hooki bramy /api/v1/firewall/* używają tokenu w zakresie firewall-gateway.

5. Compliance, rezydencja i dane

Które frameworki są pokryte?

Katalog obejmuje SOC 2, HIPAA, GDPR, UK GDPR, EU AI Act, ISO 27001, ISO 42001, NIST AI RMF, PCI DSS, CCPA, GLBA, OWASP Top 10 dla aplikacji LLM (jako mapowanie kontroli), plus profile regionalne (PIPL, APPI, PIPA, LGPD, PIPEDA, DPDP, australijskie APP, Singapur PDPA, DORA i kilka amerykańskich praw stanowych). Przeglądaj katalog, packi i gotowość — wszystkie Member, darmowe — pod /api/compliance/*.

Dlaczego instalacja/raport są bramkowane?

Przeglądanie jest darmowe; instalacja packa, generowanie raportu, wejście na żywo i ustawianie rezydencji wymagają Admin przestrzeni roboczej i płatnego planu (bramkowane po stronie serwera). Instalacja packa (POST /api/compliance/packs/:key/install) materializuje prawdziwe guardrails + polityki firewalla, które możesz potem edytować.

Czy raporty compliance są weryfikowalne?

Tak. Raport jest podpisany Ed25519 + SHA-256 i publicznie weryfikowalny: pobierz klucz publiczny (GET /api/public/compliance/pubkey), zweryfikuj raport (POST /api/public/compliance/verify) lub wręcz audytorowi link udostępniania (GET /api/public/compliance/share/:token). Eksporty to CSV / JSON / PDF.

Co faktycznie przypina rezydencja danych?

To region artefaktu raportu compliance (us, eu, uk, ap, cn, global), ustawiany przez PUT /api/compliance/residency (Admin); odczyt międzyregionowy jest wstrzymany. To nie geo-przypinanie twoich danych inferencyjnych. Zobacz Współdzielona odpowiedzialność.

Jak długo trzymane są logi i jak wymazać dane?

Retencja logów żądań domyślnie to 30 dni i jest przycięta po stronie serwera do twardego maksimum 180 dni. Usunięcie konta jest wstrzymywane na okno karencji (domyślnie 30 dni) przed uruchomieniem nieodwracalnego czyszczenia PII; to czyszczenie kaskadowo czyści ładunki logów żądań Mongo, dopasowania guardraili i zdarzenia firewalla przypisane tobie. Archiwizacja przestrzeni roboczej kaskadowo czyści te same trzy kolekcje dla tej przestrzeni roboczej. Zobacz Ekspozycja PII.

400 z kontroli bezpieczeństwa to nie błąd w twoim promptcie. To polityka robiąca swoją robotę. Nie ponawiaj — te kody są skip-retry. Prześledź regułę, a potem zdecyduj, czy naprawić wywołanie, czy rozluźnić politykę: Dlaczego zostało zablokowane?.

6. Wciąż utknąłeś?

Kody błędów

Każda blokada, wstrzymanie i odrzucenie, które brama może zwrócić.

Dlaczego zostało zablokowane?

Odczytaj kod, otwórz właściwy strumień, znajdź dokładną regułę.

API Guardrail

Trasy, role i ładunki dla polityk treści.

API Firewall

Trasy konsoli i bramy dla zarządzania akcjami.

API Compliance

Endpointy katalogu, instalacji, raportu i rezydencji.

Słownik

Każdy termin użyty w dokumentach Zero-Trust.

Po zagrożenia, które te kontrole zatrzymują, zacznij od modelu zagrożeń. Po czystą bazę, podążaj za bazą Secure Agents.

​1. FAQ bezpieczeństwa agenta ai — zacznij tutaj

​2. Guardrails — prześwietlanie treści

​3. Firewall — akcje agenta

​4. MCP, klucze i dostęp do bramy

​5. Compliance, rezydencja i dane

​6. Wciąż utknąłeś?

Kody błędów

Dlaczego zostało zablokowane?

API Guardrail

API Firewall

API Compliance

Słownik

1. FAQ bezpieczeństwa agenta ai — zacznij tutaj

2. Guardrails — prześwietlanie treści

3. Firewall — akcje agenta

4. MCP, klucze i dostęp do bramy

5. Compliance, rezydencja i dane

6. Wciąż utknąłeś?