1. FAQ bezpieczeństwa agenta ai — zacznij tutaj
30-sekundowa mapa, która kontrola odpowiada na które pytanie:| Pytasz o… | Płaszczyzna | Przeczytaj |
|---|---|---|
| Tekst w promptach lub odpowiedziach (PII, sekrety, jailbreaki) | Guardrails | Guardrails |
| Wywołania narzędzi, MCP, egress, skille | Firewall | Firewall |
Która odpaliła na 400 | Obie | Dlaczego zostało zablokowane? |
2. Guardrails — prześwietlanie treści
Co się dzieje, jeśli żaden guardrail nie rozwiąże się na żądaniu?
Co się dzieje, jeśli żaden guardrail nie rozwiąże się na żądaniu?
guardrail_id na kluczu (jeśli istnieje i jest
włączony) → w przeciwnym razie domyślny is_default guardrail przestrzeni
roboczej → w przeciwnym razie brak egzekwowania. Wyłączone jawne
dołączenie to przełącznik wyłączający — nie wraca do domyślnego. Z niczym
rozwiązanym żądanie jest bajt-identyczne z przestrzenią roboczą, która nigdy
nie włączyła tej funkcji.Czy zablokowane żądanie kosztuje mnie kwotę?
Czy zablokowane żądanie kosztuje mnie kwotę?
block zwraca 400 guardrail_blocked i nie kosztuje kwoty —
blokada na etapie wejścia odpala przed metrowaniem; blokada na etapie
wyjścia zwraca wstępnie skonsumowaną kwotę. Jest też oznaczona
skip-retry: ponowne uruchomienie identycznego promptu po prostu znów
blokuje.Jakie są typy reguł i akcje?
Jakie są typy reguł i akcje?
keyword, regex, pii, max_chars, external,
llm_judge, grounding. Akcje: block (odrzuć), mask (zredaguj i
prześlij), flag (tylko log, bez zmiany ruchu). Etapy: input,
output, both. Zobacz Guardrails po każdą.Które encje PII są wykrywane i jak wygląda maskowanie?
Które encje PII są wykrywane i jak wygląda maskowanie?
email, phone, credit_card, ssn,
ip, iban, mac_address, jwt, aws_access_key, api_key_openai,
bitcoin_address, plus typy regionalne (jp_mynumber, kr_rrn,
cn_resident_id). Akcja mask renderuje typowany tag —
jane@acme.com → [EMAIL], SSN → [SSN]. Możesz nawarstwić do
25 własnych encji regex per reguła (z opcjonalną sumą kontrolną Luhn)
i nadpisać akcję per encja przez entity_actions.Czy maskowanie wyjścia jest egzekwowane na strumieniowanych odpowiedziach?
Czy maskowanie wyjścia jest egzekwowane na strumieniowanych odpowiedziach?
Ile kosztuje sędzia LLM?
Ile kosztuje sędzia LLM?
keyword / regex / pii / max_chars nie robią wywołania modelu i
nic nie naliczają. Reguła llm_judge uruchamia sprawdzenie semantyczne przez
model przestrzeni roboczej (ograniczone przez judge_timeout_ms, domyślnie
fail-open) i jest rozliczana jako osobna podlinia sędziego. Reguła
grounding ocenia wierność odpowiedzi wobec pobranych źródeł żądania (próg
domyślnie 0.7) w ten sam sposób.Czy widzę, co reguła faktycznie dopasowała?
Czy widzę, co reguła faktycznie dopasowała?
GET /api/guardrail/match, Member). Każdy
wiersz rejestruje typ reguły, akcję, etap i łańcuch detali — oraz dopasowany
podłańcuch tylko jeśli „Log raw content” jest włączone dla tego
guardraila (domyślnie wyłączone, postawa konserwatywna wobec prywatności).
Błędna blokada? Oznacz ją jako fałszywie pozytywną
(POST /api/guardrail/match/:id/mark-fp, Admin).Czy skanujecie zależności pod kątem znanych CVE?
Czy skanujecie zależności pod kątem znanych CVE?
block / mask / flag, które autorujesz bezpośrednio.
Podłącz skaner pod Integrations, by to napędzić.3. Firewall — akcje agenta
Jak firewall różni się od guardrails w rozwiązywaniu?
Jak firewall różni się od guardrails w rozwiązywaniu?
firewall_policy_id / guardrail_id) i dzielą fallback domyślnej
przestrzeni roboczej. Zobacz
Guardrails vs Firewall.Jakie są werdykty i powierzchnie?
Jakie są werdykty i powierzchnie?
allow, audit, deny, sanitize, pending_approval,
cap_cost. default_verdict to allow / audit / deny (audit
domyślnie). Powierzchnie: inbound (ogłoszone narzędzia), response
(tool_calls wyemitowane przez model), mcp (tools/call), egress
(wychodzący host/IP/CIDR). Słownik
werdyktów dekoduje każdą.Czy `sanitize` czyści to, co narzędzie zwraca?
Czy `sanitize` czyści to, co narzędzie zwraca?
sanitize redaguje dopasowane
podłańcuchy z argumentów wywołania narzędzia tylko, nigdy treści, którą
narzędzie zwraca. Na powierzchni inbound (brak jeszcze argumentów czasu
wywołania) sanitize eskaluje do deny.Co robią poziomy autonomii?
Co robią poziomy autonomii?
autonomy_*:•
balanced (rekomendowany start) — domyślnie audit, deny
destrukcyjny shell, PII Shield w trybie tylko-audit (flaguje PII).•
tight — default-deny, deny destrukcyjny shell, deny narzędzia fetch w
kształcie SSRF, PII Shield + Secrets Blocker egzekwowane.•
permissive — tylko obserwacja.Cofnięcie jednym kliknięciem przywraca poprzedni stan z migawki audytu, którą zastosowanie zapisało. To pojedynczy krok — cofnięcie jest niedostępne, gdy późniejsze zastosowanie (lub ręczna edycja polityki) wyparło tę migawkę. Zobacz Tryby egzekwowania.
Czy preset SSRF blokuje prywatne IP i metadane chmury?
Czy preset SSRF blokuje prywatne IP i metadane chmury?
tight odmawia powszechnym
nazwom narzędzi w kształcie fetch (http_fetch, web_search, fetch_url,
request). Aby odmawiać po celu — zakresy RFC-1918, IP metadanych chmury,
konkretne CIDR — zautoruj własną regułę odmowy hosta/CIDR na powierzchni
egress. Żaden preset nie dostarcza reguł CIDR za ciebie. Zobacz
Egress i eksfiltracja danych.Jak wdrożyć politykę bez łamania ruchu?
Jak wdrożyć politykę bez łamania ruchu?
audit, poprzedzając powód
[shadow] would …. Obserwuj widoki Events i Runs, potem wyłącz tryb
cienia, by egzekwować. Tryb obserwacji na poziomie przestrzeni roboczej
(firewall_observe_mode) to komplementarne pokrętło odkrywania — loguje
niepokryte wywołania jako luki w Discovered Tools.Jak działa zatwierdzenie przez człowieka (HITL)?
Jak działa zatwierdzenie przez człowieka (HITL)?
pending_approval zwraca 400 firewall_approval_pending z id
zatwierdzenia. Recenzent rozstrzyga je z konsoli (Developer+) lub przez
HMAC webhook callback (POST /api/v1/firewall/approvals/:id/callback). Agent
odpytuje GET /api/v1/firewall/approvals/:id i ponownie wysyła oryginalne
wywołanie z jednorazowym nagłówkiem X-OrcaRouter-Firewall-Approval. Zobacz
Niebezpieczne wywołania narzędzi.Czego szuka wykrywanie anomalii?
Czego szuka wykrywanie anomalii?
retry_loop i novel_path (przejście narzędzie-do-narzędzia
nigdy wcześniej niewidziane). Strumień jest czytelny dla Member; uśpij anomalię
na do 7 dni. Zobacz
Nadmierna sprawczość.4. MCP, klucze i dostęp do bramy
Jak zarządzane są serwery MCP?
Jak zarządzane są serwery MCP?
name, endpoint, auth_mode z
none/bearer/oauth/basic, zaszyfrowane poświadczenia), a brama MCP
ewaluuje każde tools/call na powierzchni mcp przed dyspozycją. Zdrowie
jest śledzone (ok/degraded/down); sonduj je przez
POST /api/workspace/firewall/mcp_servers/:id/probe. Sonda też ustanawia
bazową linię ogłoszonego schematu narzędzi serwera — późniejszy dryf przerzuca
jego status schematu z verified na changed (sygnał „rug-pull”), a ty albo
re-ustanawiasz bazę (zatwierdzasz), albo quarantine serwer. Więc zarządzanie
to ewaluacja per wywołanie plus śledzenie integralności schematu i pasm
ryzyka skilli. Zobacz Firewall MCP i
Zatruwanie narzędzi MCP.Co się dzieje z ryzykownym lub auto-wykrytym skillem?
Co się dzieje z ryzykownym lub auto-wykrytym skillem?
allow / quarantine / block. Poddany kwarantannie
skill jest wstrzymany do zatwierdzenia; auto-wykryte skille pozostają poddane
kwarantannie, dopóki człowiek ich nie przejrzy. Tryb jedzie na wierzchu
werdyktu reguły.Które pola klucza blokują agenta?
Które pola klucza blokują agenta?
model_limits (+ model_limits_enabled), allow_ips,
credit_limit_usd (0 = nielimitowany), expired_time (-1 = nigdy),
environment, guardrail_id, firewall_policy_id oraz
is_firewall_gateway. Połącz je po najmniejszą sprawczość — zobacz
Zakres, klucze i polityki.
Klucze są maskowane na wyświetleniu.Dlaczego dostaję 403 na `/api/v1/firewall/*`?
Dlaczego dostaję 403 na `/api/v1/firewall/*`?
POST /evaluate, POST /evaluate_plan,
ANY /mcp) wymagają klucza z is_firewall_gateway=true — dedykowanego
tokenu w zakresie firewall-gateway, nie twojego klucza relay sk-orca-….
Wybicie jednego i odczyt jego jawnego tekstu to Admin+.Jaka jest różnica między konfigurowaniem a wywoływaniem?
Jaka jest różnica między konfigurowaniem a wywoływaniem?
/v1/* używa klucza sk-orca-…; tylko
hooki bramy /api/v1/firewall/* używają tokenu w zakresie firewall-gateway.5. Compliance, rezydencja i dane
Które frameworki są pokryte?
Które frameworki są pokryte?
/api/compliance/*.Dlaczego instalacja/raport są bramkowane?
Dlaczego instalacja/raport są bramkowane?
POST /api/compliance/packs/:key/install) materializuje prawdziwe
guardrails + polityki firewalla, które możesz potem edytować.Czy raporty compliance są weryfikowalne?
Czy raporty compliance są weryfikowalne?
GET /api/public/compliance/pubkey), zweryfikuj
raport (POST /api/public/compliance/verify) lub wręcz audytorowi
link udostępniania (GET /api/public/compliance/share/:token). Eksporty to
CSV / JSON / PDF.Co faktycznie przypina rezydencja danych?
Co faktycznie przypina rezydencja danych?
us, eu,
uk, ap, cn, global), ustawiany przez PUT /api/compliance/residency
(Admin); odczyt międzyregionowy jest wstrzymany. To nie geo-przypinanie
twoich danych inferencyjnych. Zobacz
Współdzielona odpowiedzialność.Jak długo trzymane są logi i jak wymazać dane?
Jak długo trzymane są logi i jak wymazać dane?
