Przejdź do głównej treści
Przeczytałeś stronę kontroli i masz jedno pytanie przed wdrożeniem. To jest FAQ bezpieczeństwa agenta ai — przekrojowe pytania, które obejmują całą sekcję Zero-Trust, odpowiedziane w jednym miejscu, każde linkujące do referencji po głębię. Jeśli jesteś zupełnie nowy w sekcji, zacznij od Zabezpieczania agentów AI i stosu kontrolnego; ta strona zakłada, że wiesz, że są dwie płaszczyzny egzekwowania — Guardrails (tekst promptu/odpowiedzi) i Firewall (akcje agenta) — i potrzebujesz tylko dopiąć krawędzie.

1. FAQ bezpieczeństwa agenta ai — zacznij tutaj

30-sekundowa mapa, która kontrola odpowiada na które pytanie:
Pytasz o…PłaszczyznaPrzeczytaj
Tekst w promptach lub odpowiedziach (PII, sekrety, jailbreaki)GuardrailsGuardrails
Wywołania narzędzi, MCP, egress, skilleFirewallFirewall
Która odpaliła na 400ObieDlaczego zostało zablokowane?
Każda blokada bezpieczeństwa na hostowanej bramie to HTTP 400 z czytelnym maszynowo code. Odczytaj kod najpierw — rozwidla cię do właściwego strumienia. Pełna tabela żyje w Kodach błędów.

2. Guardrails — prześwietlanie treści

Nic. Rozwiązywanie to: jawny guardrail_id na kluczu (jeśli istnieje i jest włączony) → w przeciwnym razie domyślny is_default guardrail przestrzeni roboczej → w przeciwnym razie brak egzekwowania. Wyłączone jawne dołączenie to przełącznik wyłączający — nie wraca do domyślnego. Z niczym rozwiązanym żądanie jest bajt-identyczne z przestrzenią roboczą, która nigdy nie włączyła tej funkcji.
Nie. Akcja block zwraca 400 guardrail_blocked i nie kosztuje kwoty — blokada na etapie wejścia odpala przed metrowaniem; blokada na etapie wyjścia zwraca wstępnie skonsumowaną kwotę. Jest też oznaczona skip-retry: ponowne uruchomienie identycznego promptu po prostu znów blokuje.
Typy reguł: keyword, regex, pii, max_chars, external, llm_judge, grounding. Akcje: block (odrzuć), mask (zredaguj i prześlij), flag (tylko log, bez zmiany ruchu). Etapy: input, output, both. Zobacz Guardrails po każdą.
Wbudowane encje obejmują email, phone, credit_card, ssn, ip, iban, mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address, plus typy regionalne (jp_mynumber, kr_rrn, cn_resident_id). Akcja mask renderuje typowany tag — jane@acme.com[EMAIL], SSN → [SSN]. Możesz nawarstwić do 25 własnych encji regex per reguła (z opcjonalną sumą kontrolną Luhn) i nadpisać akcję per encja przez entity_actions.
Block wyjścia jest egzekwowany w obie strony — odpowiedzi niestrumieniowane są prześwietlane przed zwrotem, a skaner strumieniowy ucina strumień w locie. Mask wyjścia jest obecnie tylko niestrumieniowy; na strumieniowanej odpowiedzi chunk przechodzi niezamaskowany (przepisywanie strumienia w paśmie jest na roadmapie). Maskowanie na etapie wejścia — sanityzacja żądania, zanim model je zobaczy — jest żywe niezależnie. Preset PII Shield maskuje na etapie wejścia dziś.
Reguły keyword / regex / pii / max_chars nie robią wywołania modelu i nic nie naliczają. Reguła llm_judge uruchamia sprawdzenie semantyczne przez model przestrzeni roboczej (ograniczone przez judge_timeout_ms, domyślnie fail-open) i jest rozliczana jako osobna podlinia sędziego. Reguła grounding ocenia wierność odpowiedzi wobec pobranych źródeł żądania (próg domyślnie 0.7) w ten sam sposób.
Otwórz strumień Matches (GET /api/guardrail/match, Member). Każdy wiersz rejestruje typ reguły, akcję, etap i łańcuch detali — oraz dopasowany podłańcuch tylko jeśli „Log raw content” jest włączone dla tego guardraila (domyślnie wyłączone, postawa konserwatywna wobec prywatności). Błędna blokada? Oznacz ją jako fałszywie pozytywną (POST /api/guardrail/match/:id/mark-fp, Admin).
Guardrail może udekorować prompt doradztwem bezpieczeństwa kodu (np. notatką CVE/SBOM o referowanym pakiecie) bez blokowania lub maskowania tekstu. To warstwa adnotacji, która wzbogaca żądanie, zamiast je odrzucać — odrębna od akcji block / mask / flag, które autorujesz bezpośrednio. Podłącz skaner pod Integrations, by to napędzić.

3. Firewall — akcje agenta

Jedna kluczowa różnica: wyłączona dołączona polityka firewalla wraca do domyślnej przestrzeni roboczej, podczas gdy wyłączony dołączony guardrail rozwiązuje się do żadnego. Poza tym oba dołączają przez klucz (firewall_policy_id / guardrail_id) i dzielą fallback domyślnej przestrzeni roboczej. Zobacz Guardrails vs Firewall.
Werdykty: allow, audit, deny, sanitize, pending_approval, cap_cost. default_verdict to allow / audit / deny (audit domyślnie). Powierzchnie: inbound (ogłoszone narzędzia), response (tool_calls wyemitowane przez model), mcp (tools/call), egress (wychodzący host/IP/CIDR). Słownik werdyktów dekoduje każdą.
Nie — i to powszechne nieporozumienie. Werdykt sanitize redaguje dopasowane podłańcuchy z argumentów wywołania narzędzia tylko, nigdy treści, którą narzędzie zwraca. Na powierzchni inbound (brak jeszcze argumentów czasu wywołania) sanitize eskaluje do deny.
Jeden przełącznik ustawia twoją całą postawę, zapisując prawdziwe edytowalne wiersze autonomy_*:
balanced (rekomendowany start) — domyślnie audit, deny destrukcyjny shell, PII Shield w trybie tylko-audit (flaguje PII).
tight — default-deny, deny destrukcyjny shell, deny narzędzia fetch w kształcie SSRF, PII Shield + Secrets Blocker egzekwowane.
permissive — tylko obserwacja.
Cofnięcie jednym kliknięciem przywraca poprzedni stan z migawki audytu, którą zastosowanie zapisało. To pojedynczy krok — cofnięcie jest niedostępne, gdy późniejsze zastosowanie (lub ręczna edycja polityki) wyparło tę migawkę. Zobacz Tryby egzekwowania.
Nie przez preset. Preset SSRF autonomii tight odmawia powszechnym nazwom narzędzi w kształcie fetch (http_fetch, web_search, fetch_url, request). Aby odmawiać po celu — zakresy RFC-1918, IP metadanych chmury, konkretne CIDR — zautoruj własną regułę odmowy hosta/CIDR na powierzchni egress. Żaden preset nie dostarcza reguł CIDR za ciebie. Zobacz Egress i eksfiltracja danych.
Włącz tryb cienia (per polityka): polityka ewaluuje i loguje, ale degraduje każdy egzekwujący werdykt do audit, poprzedzając powód [shadow] would …. Obserwuj widoki Events i Runs, potem wyłącz tryb cienia, by egzekwować. Tryb obserwacji na poziomie przestrzeni roboczej (firewall_observe_mode) to komplementarne pokrętło odkrywania — loguje niepokryte wywołania jako luki w Discovered Tools.
Werdykt pending_approval zwraca 400 firewall_approval_pending z id zatwierdzenia. Recenzent rozstrzyga je z konsoli (Developer+) lub przez HMAC webhook callback (POST /api/v1/firewall/approvals/:id/callback). Agent odpytuje GET /api/v1/firewall/approvals/:id i ponownie wysyła oryginalne wywołanie z jednorazowym nagłówkiem X-OrcaRouter-Firewall-Approval. Zobacz Niebezpieczne wywołania narzędzi.
Skoki tempa/kosztu oceniane wobec wyuczonej bazowej linii godziny-tygodnia (14-dniowej), plus retry_loop i novel_path (przejście narzędzie-do-narzędzia nigdy wcześniej niewidziane). Strumień jest czytelny dla Member; uśpij anomalię na do 7 dni. Zobacz Nadmierna sprawczość.

4. MCP, klucze i dostęp do bramy

Zarejestruj serwer (name, endpoint, auth_mode z none/bearer/oauth/basic, zaszyfrowane poświadczenia), a brama MCP ewaluuje każde tools/call na powierzchni mcp przed dyspozycją. Zdrowie jest śledzone (ok/degraded/down); sonduj je przez POST /api/workspace/firewall/mcp_servers/:id/probe. Sonda też ustanawia bazową linię ogłoszonego schematu narzędzi serwera — późniejszy dryf przerzuca jego status schematu z verified na changed (sygnał „rug-pull”), a ty albo re-ustanawiasz bazę (zatwierdzasz), albo quarantine serwer. Więc zarządzanie to ewaluacja per wywołanie plus śledzenie integralności schematu i pasm ryzyka skilli. Zobacz Firewall MCP i Zatruwanie narzędzi MCP.
Każdy skill jest skanowany w pasmo ryzyka z trybem egzekwowania allow / quarantine / block. Poddany kwarantannie skill jest wstrzymany do zatwierdzenia; auto-wykryte skille pozostają poddane kwarantannie, dopóki człowiek ich nie przejrzy. Tryb jedzie na wierzchu werdyktu reguły.
model_limits (+ model_limits_enabled), allow_ips, credit_limit_usd (0 = nielimitowany), expired_time (-1 = nigdy), environment, guardrail_id, firewall_policy_id oraz is_firewall_gateway. Połącz je po najmniejszą sprawczość — zobacz Zakres, klucze i polityki. Klucze są maskowane na wyświetleniu.
Te trasy bramy (POST /evaluate, POST /evaluate_plan, ANY /mcp) wymagają klucza z is_firewall_gateway=true — dedykowanego tokenu w zakresie firewall-gateway, nie twojego klucza relay sk-orca-…. Wybicie jednego i odczyt jego jawnego tekstu to Admin+.
Konfiguracja działa w konsoli — guardrails, polityki firewalla, serwery MCP i compliance są zarządzane pod twoją sesją / tokenem dostępu (UserAuth), a każdy zapis jest bramkowany rolą (Developer+ dla zapisów polityki i guardraila). Tylko twój ruch relay /v1/* używa klucza sk-orca-…; tylko hooki bramy /api/v1/firewall/* używają tokenu w zakresie firewall-gateway.

5. Compliance, rezydencja i dane

Katalog obejmuje SOC 2, HIPAA, GDPR, UK GDPR, EU AI Act, ISO 27001, ISO 42001, NIST AI RMF, PCI DSS, CCPA, GLBA, OWASP Top 10 dla aplikacji LLM (jako mapowanie kontroli), plus profile regionalne (PIPL, APPI, PIPA, LGPD, PIPEDA, DPDP, australijskie APP, Singapur PDPA, DORA i kilka amerykańskich praw stanowych). Przeglądaj katalog, packi i gotowość — wszystkie Member, darmowe — pod /api/compliance/*.
Przeglądanie jest darmowe; instalacja packa, generowanie raportu, wejście na żywo i ustawianie rezydencji wymagają Admin przestrzeni roboczej i płatnego planu (bramkowane po stronie serwera). Instalacja packa (POST /api/compliance/packs/:key/install) materializuje prawdziwe guardrails + polityki firewalla, które możesz potem edytować.
Tak. Raport jest podpisany Ed25519 + SHA-256 i publicznie weryfikowalny: pobierz klucz publiczny (GET /api/public/compliance/pubkey), zweryfikuj raport (POST /api/public/compliance/verify) lub wręcz audytorowi link udostępniania (GET /api/public/compliance/share/:token). Eksporty to CSV / JSON / PDF.
To region artefaktu raportu compliance (us, eu, uk, ap, cn, global), ustawiany przez PUT /api/compliance/residency (Admin); odczyt międzyregionowy jest wstrzymany. To nie geo-przypinanie twoich danych inferencyjnych. Zobacz Współdzielona odpowiedzialność.
Retencja logów żądań domyślnie to 30 dni i jest przycięta po stronie serwera do twardego maksimum 180 dni. Usunięcie konta jest wstrzymywane na okno karencji (domyślnie 30 dni) przed uruchomieniem nieodwracalnego czyszczenia PII; to czyszczenie kaskadowo czyści ładunki logów żądań Mongo, dopasowania guardraili i zdarzenia firewalla przypisane tobie. Archiwizacja przestrzeni roboczej kaskadowo czyści te same trzy kolekcje dla tej przestrzeni roboczej. Zobacz Ekspozycja PII.
400 z kontroli bezpieczeństwa to nie błąd w twoim promptcie. To polityka robiąca swoją robotę. Nie ponawiaj — te kody są skip-retry. Prześledź regułę, a potem zdecyduj, czy naprawić wywołanie, czy rozluźnić politykę: Dlaczego zostało zablokowane?.

6. Wciąż utknąłeś?

Kody błędów

Każda blokada, wstrzymanie i odrzucenie, które brama może zwrócić.

Dlaczego zostało zablokowane?

Odczytaj kod, otwórz właściwy strumień, znajdź dokładną regułę.

API Guardrail

Trasy, role i ładunki dla polityk treści.

API Firewall

Trasy konsoli i bramy dla zarządzania akcjami.

API Compliance

Endpointy katalogu, instalacji, raportu i rezydencji.

Słownik

Każdy termin użyty w dokumentach Zero-Trust.
Po zagrożenia, które te kontrole zatrzymują, zacznij od modelu zagrożeń. Po czystą bazę, podążaj za bazą Secure Agents.