Przejdź do głównej treści

Słownik bezpieczeństwa agentów AI

Szybki indeks referencyjny każdego terminu używanego w dokumentacji Zero Trust. Każda definicja ma zakres tego, co ty jako deweloper na hostowanej bramie możesz obserwować i konfigurować. Terminy linkują do swoich stron głównych dla pełnych szczegółów.

Tożsamość i zakres

TerminDefinicja
Przestrzeń roboczaNajwyższy poziom granicy najemcy. Wszystkie klucze, guardrails, polityki firewalla i zdarzenia audytu należą do jednej przestrzeni roboczej; nic nie przekracza granic najemców. Zobacz Zakres, klucze i polityki.
Klucz API (klucz o ograniczonym zakresie)Token bearer, który twój agent prezentuje przy każdym wywołaniu. Niesie własną listę dozwolonych modeli, ograniczenia IP, limit wydatków, wygaśnięcie i dokładną politykę guardrail + firewalla, która do niego ma zastosowanie. Zobacz Zakres, klucze i polityki.
model_limitsZestaw modeli (lub globów modeli), które klucz może wywoływać. Żądania dla modelu spoza listy są odrzucane przed jakimkolwiek wywołaniem nadrzędnym.
allow_ipsLista dozwolonych IP lub CIDR na kluczu. Żądania pochodzące z adresu spoza listy są odrzucane przy uwierzytelnianiu.
credit_limit_usd (limit wydatków)Twardy pułap wydatków na kluczu, w USD. Gdy skumulowane użycie klucza osiągnie pułap, dalsze żądania są odrzucane. Przydatne do ograniczania rozbieganych pętli agentów.
Znacznik środowiskaDowolna etykieta (np. production, staging) dołączona do klucza w celu organizowania i identyfikowania go według środowiska wdrożenia.
is_firewall_gatewayFlaga, która ogranicza klucz dla tras bramy Firewall (/api/v1/firewall/*) — endpointów dyspozycji MCP i hooka evaluate. Zwykły klucz dostaje 403 na tych trasach.
Minimalne uprawnieniaZasada dawania agentowi tylko tych modeli, wydatków, IP i polityk, których faktycznie potrzebuje — i nic więcej. Implementowana przez kombinowanie model_limits, allow_ips, credit_limit_usd i restrykcyjnej polityki firewalla na tym samym kluczu. Zobacz Zakres, klucze i polityki.

Guardrails

TerminDefinicja
GuardrailNazwana, w zakresie przestrzeni roboczej polityka treści — uporządkowana lista reguł, którą brama uruchamia wobec wejścia żądania i wyjścia modelu. Dołącz ją do klucza (lub ustaw jako domyślną przestrzeni roboczej) raz; każde powiązane wywołanie jest sprawdzane bez ponownego wdrożenia.
RegułaJedno sprawdzenie wewnątrz guardrail: typ (co wykryć), etap (gdzie szukać) i akcja (co zrobić). Reguły biegną w kolejności.
Etapinput (żądanie wywołującego), output (odpowiedź modelu) lub both. Reguła odpala tylko na zadeklarowanym etapie.
Akcjablock — odrzuć całe żądanie (HTTP 400); mask — redaguj dopasowanie i pozwól na wywołanie; flag — tylko log, bez zmiany ruchu.
guardrail_blockedKod błędu zwracany, gdy reguła guardrail wywołuje akcję block. Zwraca HTTP 400. Żądanie nie kosztuje żadnego limitu — blokady na etapie wejściowym odpalają przed pomiarem; blokady na etapie wyjściowym zwracają wstępnie pobraną porcję.
PII ShieldReguła typu pii, która wykrywa wbudowane typy wrażliwych encji (email, telefon, SSN, karta kredytowa, IP i więcej) i maskuje je typowanymi tagami. (Typ reguły pii obsługuje też block per encja, gdy tworzysz własne reguły.) Kanoniczny punkt startowy dla zapobiegania utracie danych. Sekrety i poświadczenia są objęte przez oddzielny preset Secrets Blocker.
Guardrail prompt injectionReguła bezpieczeństwa, która wykrywa próby niezaufanej treści (stron internetowych, wyników narzędzi) do przejęcia instrukcji agenta. Dostarczana jako preset Prompt-Injection Basics w kategorii szablonów Safety.
Filtr wrażliwych słówReguła typu keyword, która dopasowuje dosłowną listę terminów, bez rozróżniania wielkości liter. Najprostszy denylist.
Sędzia LLMReguła typu llm_judge, która uruchamia semantyczne sprawdzenie (toksyczność, off-topic, intencja jailbreaku) wobec modelu w twojej przestrzeni roboczej. Używaj dla rozmytych polityk, których żaden regex nie może wychwycić. Tokeny naliczane jako sub-linia sędziego.
Kontekstowe ugruntowanieReguła typu grounding, która ocenia odpowiedź modelu wobec źródeł RAG w żądaniu i flaguje lub blokuje odpowiedzi, które nie są im wierne.
Logowanie surowej treściPrzełącznik per guardrail — wyłączony domyślnie (ostrożność wobec prywatności). Przy wyłączonym strumień Matches rejestruje, że reguła odpaliła, ale nie dopasowany podłańcuch. Włącz per guardrail, gdy potrzebujesz faktycznego ciągu do triażu.
Strumień MatchesRejestr przestrzeni roboczej każdej reguły, która odpaliła: typ reguły, akcja, etap, łańcuch szczegółów i (gdy Log raw content jest włączony) dopasowany podłańcuch. Filtrowalny według guardrail, typu reguły i akcji.

Agent Firewall

TerminDefinicja
Polityka firewallaNazwany, w zakresie przestrzeni roboczej zestaw uporządkowanych reguł, który brama ewaluuje przy każdym wywołaniu narzędzia. Dołącz raz do klucza lub ustaw jako domyślną przestrzeni roboczej; bez zmian w kodzie agenta.
WerdyktWynik, który reguła (lub wartość domyślna) produkuje dla wywołania narzędzia. Jeden z allow, audit, deny, sanitize, pending_approval lub cap_cost.
Domyślny werdyktWerdykt stosowany, gdy żadna reguła w polityce nie pasuje do wywołania narzędzia. Domyślnie audit — zezwól na wszystko i rejestruj — dopóki nie jesteś gotowy do egzekwowania.
Powierzchnia egzekwowaniaPunkt w cyklu życia żądania, w którym firewall widzi wywołanie: inbound (definicje narzędzi, które agent ogłasza), response (wywołania narzędzi, które model emituje), mcp (tools/call przez bramę MCP) lub egress (zewnętrzne miejsce docelowe zgłoszone przez narzędzie). Zobacz Firewall.
Lista dozwolonych narzędzi (glob)tool_name_glob na regule — mała gramatyka rozróżniająca wielkość liter (shell.*, *.exec, *), która pasuje do nazwy narzędzia lub rodziny. Pierwszy pasujący wygrywa wobec uporządkowanej listy reguł.
Walidacja argumentówKlauzule args_match na regule — operatory eq, contains, regex, in, cidr_match, gt, lt na polach JSONPath w argumentach narzędzia. Różnica między „blokuj shell.exec” a „blokuj shell.exec tylko gdy polecenie to rm -rf.”
SanitizeWerdykt sanitize, który redaguje dopasowane podłańcuchy (sekrety, PII) z argumentów narzędzia i przekazuje oczyszczone wywołanie, zamiast blokować całą akcję. Na powierzchni inbound eskaluje do blokady.
Kontrola egressReguła na powierzchni egress z listą dozwolonych/zablokowanych hostów/CIDR — główna obrona przed SSRF i eksfiltraniem danych. Poziom autonomii tight odmawia też narzędziom w kształcie fetch (http_fetch, fetch_url, web_search, request).
cap_costWerdykt, który odmawia wywołań narzędzi, gdy zakumulowane wydatki uruchomienia agenta (w centach) przekroczą per-rule pułap. Bezpiecznik dla rozbieganych pętli agentów; tworzony jako reguła i rozwiązuje się do allow lub deny w zdarzeniach na podstawie zakumulowanych wydatków.
Reguła sekwencjiReguła z blokiem sequence, która pasuje do uporządkowanego wieloetapowego łańcucha wywołań narzędzi w oknie czasowym (np. bulk-read → eksport → egress). Egzekwowana reaktywnie przez asynchroniczny matcher; pojawia się w strumieniu zdarzeń.
firewall_blockedKod błędu przy odmówionym wywołaniu narzędzia. Zwraca HTTP 400 na inbound; błąd narzędzia na mcp. Oznaczony skip-retry.
Zatwierdzenie / HITL (pending_approval)Werdykt pending_approval wstrzymuje wywołanie narzędzia do ludzkiego przeglądu. Agent otrzymuje odpowiedź wstrzymania z id zatwierdzenia, recenzent zatwierdza lub odrzuca poza pasmem, a agent ponownie przesyła z jednorazowym tokenem zatwierdzenia. Kod błędu HTTP podczas wstrzymania to firewall_approval_pending.
Wykrywanie anomaliiWarstwa statystyczna powyżej statycznych reguł. Ocenia aktywność per narzędzie wobec 14-dniowej bazowej linii godziny tygodnia i flaguje skoki, pętle powtórzeń i nowe ścieżki przejść narzędzi na przeglądanym strumieniu.

Postawy

TerminDefinicja
Tryb obserwacjiUstawienie na poziomie przestrzeni roboczej. Gdy włączony i żadna polityka nie jest dołączona do klucza, wywołania narzędzi są dozwolone, ale logowane jako luki w pokryciu, wypełniając widok Discovered-tools.
Tryb cieniaFlaga na polityce. Polityka ewaluuje i loguje dokładnie tak jak na produkcji, ale każdy egzekwujący werdykt jest degradowany do audit (powód poprzedzony [shadow] would …). Przełącznik bezpiecznego wdrożenia.
EgzekwowanieDomyślny stan, gdy tryb cienia jest wyłączony i polityka jest dołączona. Werdykty wchodzą w życie — deny blokuje, sanitize redaguje, pending_approval wstrzymuje.
Poziom autonomiiJeden przełącznik (tight / balanced / permissive), który atomowo zastępuje postawę Firewall i Guardrails przestrzeni roboczej w jednej transakcji z jednym kliknięciem cofnięcia. Zobacz Tryby egzekwowania i Bazę Secure Agents.

MCP i skille

TerminDefinicja
Serwer MCPSerwer Model Context Protocol zarejestrowany w twojej przestrzeni roboczej i udostępniany przez bramę Firewall MCP (api.orcarouter.ai/api/v1/firewall/mcp). Każde tools/call, które otrzymuje, jest ewaluowane inline. Zobacz Firewall MCP.
tools/callWiadomość protokołu MCP, która dyspozytuje narzędzie do serwera MCP. Firewall ewaluuje ją na powierzchni mcp przed przekazaniem.
Rug-pullRyzyko w łańcuchu dostaw, gdzie serwer MCP lub zainstalowana zdolność zmienia lub rozszerza swoje definicje narzędzi po udzieleniu dostępu. OrcaRouter zarządza promieniem wybuchu: każde tools/call MCP jest ewaluowane przez firewall na powierzchni mcp wobec twoich reguł, a skill, który skanuje jako ryzykowny, jest wstrzymany w quarantine do czasu, gdy człowiek go przejrzy.
SkillPakiet zdolności (jedno lub więcej narzędzi z jednego lub więcej serwerów MCP), który brama skanuje pod kątem ryzyka przy rejestracji. Każdy skill dostaje pasmo ryzyka i tryb egzekwowania (allow, quarantine, block), który jedzie na wierzchu werdyktów na poziomie polityki.

Zgodność i dane

TerminDefinicja
Pakiet zgodnościWbudowany pakiet guardrail + polityka firewalla dla profilu regulacyjnego (GDPR, PCI, HIPAA, dane finansowe). Zastosuj raz z biblioteki szablonów; reguły są edytowalne po zastosowaniu.
Podpisany raport zgodnościRaport atestacji na poziomie przestrzeni roboczej podpisany Ed25519. Podpis jest publicznie weryfikowalny — każdy z kluczem publicznym może potwierdzić, że raport nie był modyfikowany.
Rezydencja danychRegion zapisany dla twoich dowodów zgodności. Podpisane raporty zgodności są oznaczane i przechowywane według regionu (us, eu, uk, ap, cn, global), a raport jest serwowany tylko pod pasującym zadeklarowanym regionem. Ustaw w ustawieniach zgodności.
Prawo do usunięciaPrzy usunięciu przestrzeni roboczej lub jawnym żądaniu usunięcia, OrcaRouter przyznaje 30-dniowy okres łaski, a następnie skrobie PII z logów i rekordów audytu dla tej przestrzeni roboczej.
Zdarzenie audytuNiezmienny rekord zapisywany po każdym tworzeniu, aktualizacji, usunięciu i decyzji egzekwowania — zmianach polityk, edycjach reguł, rozstrzygnięciach zatwierdzeń, zapisach guardrail. Wartości sekretów i bloby reguł nigdy nie są zapisywane do logu audytu.

Zagrożenia (jednolinijkowe)

ZagrożenieCzym jest
Prompt injectionAtakujący osadza instrukcje w treści, którą agent przyjmuje (bezpośrednie: w wiadomości użytkownika; pośrednie: na stronie internetowej, w dokumencie lub wyniku narzędzia), aby przejąć zachowanie agenta.
JailbreakSpreparowany prompt, który próbuje obejść trening bezpieczeństwa modelu, zazwyczaj poprzez framing żądania jako odgrywanie ról, hipoteza lub nadpisanie systemu.
Nadmierne uprawnienia / zdezorientowany zastępcaAgent obdarzony szerszymi uprawnieniami niż wymaga jego zadanie, co czyni go trywialnie wyzywalnym przez wstrzyknięte instrukcje — kluczową mitygacją jest minimalne uprawnienia.
Eksfiltracja danychAgent (lub wstrzyknięta instrukcja) kieruje wywołania narzędzi lub żądania wychodzące, aby wyciec wrażliwe dane do punktu końcowego kontrolowanego przez atakującego. Łagodzone przez reguły kontroli egress.
Denial-of-walletRozbiegany lub zaatakowany adversarialnie agent, który generuje nieograniczone wydatki modelu nadrzędnego. Łagodzone przez credit_limit_usd na kluczu i reguły cap_cost w polityce firewalla.

Dla pełnego obrazu tego, jak te kontrole się komponują, patrz Zabezpieczanie agentów AI z OrcaRouter.