Słownik pojęć - OrcaRouter

Słownik bezpieczeństwa agentów AI

Szybki indeks referencyjny każdego terminu używanego w dokumentacji Zero Trust. Każda definicja ma zakres tego, co ty jako deweloper na hostowanej bramie możesz obserwować i konfigurować. Terminy linkują do swoich stron głównych dla pełnych szczegółów.

Tożsamość i zakres

Termin	Definicja
Przestrzeń robocza	Najwyższy poziom granicy najemcy. Wszystkie klucze, guardrails, polityki firewalla i zdarzenia audytu należą do jednej przestrzeni roboczej; nic nie przekracza granic najemców. Zobacz Zakres, klucze i polityki.
Klucz API (klucz o ograniczonym zakresie)	Token bearer, który twój agent prezentuje przy każdym wywołaniu. Niesie własną listę dozwolonych modeli, ograniczenia IP, limit wydatków, wygaśnięcie i dokładną politykę guardrail + firewalla, która do niego ma zastosowanie. Zobacz Zakres, klucze i polityki.
`model_limits`	Zestaw modeli (lub globów modeli), które klucz może wywoływać. Żądania dla modelu spoza listy są odrzucane przed jakimkolwiek wywołaniem nadrzędnym.
`allow_ips`	Lista dozwolonych IP lub CIDR na kluczu. Żądania pochodzące z adresu spoza listy są odrzucane przy uwierzytelnianiu.
`credit_limit_usd` (limit wydatków)	Twardy pułap wydatków na kluczu, w USD. Gdy skumulowane użycie klucza osiągnie pułap, dalsze żądania są odrzucane. Przydatne do ograniczania rozbieganych pętli agentów.
Znacznik środowiska	Dowolna etykieta (np. `production`, `staging`) dołączona do klucza w celu organizowania i identyfikowania go według środowiska wdrożenia.
`is_firewall_gateway`	Flaga, która ogranicza klucz dla tras bramy Firewall (`/api/v1/firewall/*`) — endpointów dyspozycji MCP i hooka evaluate. Zwykły klucz dostaje `403` na tych trasach.
Minimalne uprawnienia	Zasada dawania agentowi tylko tych modeli, wydatków, IP i polityk, których faktycznie potrzebuje — i nic więcej. Implementowana przez kombinowanie `model_limits`, `allow_ips`, `credit_limit_usd` i restrykcyjnej polityki firewalla na tym samym kluczu. Zobacz Zakres, klucze i polityki.

Guardrails

Termin	Definicja
Guardrail	Nazwana, w zakresie przestrzeni roboczej polityka treści — uporządkowana lista reguł, którą brama uruchamia wobec wejścia żądania i wyjścia modelu. Dołącz ją do klucza (lub ustaw jako domyślną przestrzeni roboczej) raz; każde powiązane wywołanie jest sprawdzane bez ponownego wdrożenia.
Reguła	Jedno sprawdzenie wewnątrz guardrail: typ (co wykryć), etap (gdzie szukać) i akcja (co zrobić). Reguły biegną w kolejności.
Etap	`input` (żądanie wywołującego), `output` (odpowiedź modelu) lub `both`. Reguła odpala tylko na zadeklarowanym etapie.
Akcja	`block` — odrzuć całe żądanie (HTTP 400); `mask` — redaguj dopasowanie i pozwól na wywołanie; `flag` — tylko log, bez zmiany ruchu.
`guardrail_blocked`	Kod błędu zwracany, gdy reguła guardrail wywołuje akcję `block`. Zwraca HTTP 400. Żądanie nie kosztuje żadnego limitu — blokady na etapie wejściowym odpalają przed pomiarem; blokady na etapie wyjściowym zwracają wstępnie pobraną porcję.
PII Shield	Reguła typu `pii`, która wykrywa wbudowane typy wrażliwych encji (email, telefon, SSN, karta kredytowa, IP i więcej) i maskuje je typowanymi tagami. (Typ reguły `pii` obsługuje też `block` per encja, gdy tworzysz własne reguły.) Kanoniczny punkt startowy dla zapobiegania utracie danych. Sekrety i poświadczenia są objęte przez oddzielny preset Secrets Blocker.
Guardrail prompt injection	Reguła bezpieczeństwa, która wykrywa próby niezaufanej treści (stron internetowych, wyników narzędzi) do przejęcia instrukcji agenta. Dostarczana jako preset Prompt-Injection Basics w kategorii szablonów Safety.
Filtr wrażliwych słów	Reguła typu `keyword`, która dopasowuje dosłowną listę terminów, bez rozróżniania wielkości liter. Najprostszy denylist.
Sędzia LLM	Reguła typu `llm_judge`, która uruchamia semantyczne sprawdzenie (toksyczność, off-topic, intencja jailbreaku) wobec modelu w twojej przestrzeni roboczej. Używaj dla rozmytych polityk, których żaden regex nie może wychwycić. Tokeny naliczane jako sub-linia sędziego.
Kontekstowe ugruntowanie	Reguła typu `grounding`, która ocenia odpowiedź modelu wobec źródeł RAG w żądaniu i flaguje lub blokuje odpowiedzi, które nie są im wierne.
Logowanie surowej treści	Przełącznik per guardrail — wyłączony domyślnie (ostrożność wobec prywatności). Przy wyłączonym strumień Matches rejestruje, że reguła odpaliła, ale nie dopasowany podłańcuch. Włącz per guardrail, gdy potrzebujesz faktycznego ciągu do triażu.
Strumień Matches	Rejestr przestrzeni roboczej każdej reguły, która odpaliła: typ reguły, akcja, etap, łańcuch szczegółów i (gdy Log raw content jest włączony) dopasowany podłańcuch. Filtrowalny według guardrail, typu reguły i akcji.

Agent Firewall

Termin	Definicja
Polityka firewalla	Nazwany, w zakresie przestrzeni roboczej zestaw uporządkowanych reguł, który brama ewaluuje przy każdym wywołaniu narzędzia. Dołącz raz do klucza lub ustaw jako domyślną przestrzeni roboczej; bez zmian w kodzie agenta.
Werdykt	Wynik, który reguła (lub wartość domyślna) produkuje dla wywołania narzędzia. Jeden z `allow`, `audit`, `deny`, `sanitize`, `pending_approval` lub `cap_cost`.
Domyślny werdykt	Werdykt stosowany, gdy żadna reguła w polityce nie pasuje do wywołania narzędzia. Domyślnie `audit` — zezwól na wszystko i rejestruj — dopóki nie jesteś gotowy do egzekwowania.
Powierzchnia egzekwowania	Punkt w cyklu życia żądania, w którym firewall widzi wywołanie: `inbound` (definicje narzędzi, które agent ogłasza), `response` (wywołania narzędzi, które model emituje), `mcp` (`tools/call` przez bramę MCP) lub `egress` (zewnętrzne miejsce docelowe zgłoszone przez narzędzie). Zobacz Firewall.
Lista dozwolonych narzędzi (glob)	`tool_name_glob` na regule — mała gramatyka rozróżniająca wielkość liter (`shell.`, `.exec`, `*`), która pasuje do nazwy narzędzia lub rodziny. Pierwszy pasujący wygrywa wobec uporządkowanej listy reguł.
Walidacja argumentów	Klauzule `args_match` na regule — operatory `eq`, `contains`, `regex`, `in`, `cidr_match`, `gt`, `lt` na polach JSONPath w argumentach narzędzia. Różnica między „blokuj `shell.exec`” a „blokuj `shell.exec` tylko gdy polecenie to `rm -rf`.”
Sanitize	Werdykt `sanitize`, który redaguje dopasowane podłańcuchy (sekrety, PII) z argumentów narzędzia i przekazuje oczyszczone wywołanie, zamiast blokować całą akcję. Na powierzchni `inbound` eskaluje do blokady.
Kontrola egress	Reguła na powierzchni `egress` z listą dozwolonych/zablokowanych hostów/CIDR — główna obrona przed SSRF i eksfiltraniem danych. Poziom autonomii `tight` odmawia też narzędziom w kształcie fetch (`http_fetch`, `fetch_url`, `web_search`, `request`).
`cap_cost`	Werdykt, który odmawia wywołań narzędzi, gdy zakumulowane wydatki uruchomienia agenta (w centach) przekroczą per-rule pułap. Bezpiecznik dla rozbieganych pętli agentów; tworzony jako reguła i rozwiązuje się do allow lub deny w zdarzeniach na podstawie zakumulowanych wydatków.
Reguła sekwencji	Reguła z blokiem `sequence`, która pasuje do uporządkowanego wieloetapowego łańcucha wywołań narzędzi w oknie czasowym (np. bulk-read → eksport → egress). Egzekwowana reaktywnie przez asynchroniczny matcher; pojawia się w strumieniu zdarzeń.
`firewall_blocked`	Kod błędu przy odmówionym wywołaniu narzędzia. Zwraca HTTP 400 na `inbound`; błąd narzędzia na `mcp`. Oznaczony skip-retry.
Zatwierdzenie / HITL (`pending_approval`)	Werdykt `pending_approval` wstrzymuje wywołanie narzędzia do ludzkiego przeglądu. Agent otrzymuje odpowiedź wstrzymania z id zatwierdzenia, recenzent zatwierdza lub odrzuca poza pasmem, a agent ponownie przesyła z jednorazowym tokenem zatwierdzenia. Kod błędu HTTP podczas wstrzymania to `firewall_approval_pending`.
Wykrywanie anomalii	Warstwa statystyczna powyżej statycznych reguł. Ocenia aktywność per narzędzie wobec 14-dniowej bazowej linii godziny tygodnia i flaguje skoki, pętle powtórzeń i nowe ścieżki przejść narzędzi na przeglądanym strumieniu.

Postawy

Termin	Definicja
Tryb obserwacji	Ustawienie na poziomie przestrzeni roboczej. Gdy włączony i żadna polityka nie jest dołączona do klucza, wywołania narzędzi są dozwolone, ale logowane jako luki w pokryciu, wypełniając widok Discovered-tools.
Tryb cienia	Flaga na polityce. Polityka ewaluuje i loguje dokładnie tak jak na produkcji, ale każdy egzekwujący werdykt jest degradowany do `audit` (powód poprzedzony `[shadow] would …`). Przełącznik bezpiecznego wdrożenia.
Egzekwowanie	Domyślny stan, gdy tryb cienia jest wyłączony i polityka jest dołączona. Werdykty wchodzą w życie — `deny` blokuje, `sanitize` redaguje, `pending_approval` wstrzymuje.
Poziom autonomii	Jeden przełącznik (`tight` / `balanced` / `permissive`), który atomowo zastępuje postawę Firewall i Guardrails przestrzeni roboczej w jednej transakcji z jednym kliknięciem cofnięcia. Zobacz Tryby egzekwowania i Bazę Secure Agents.

MCP i skille

Termin	Definicja
Serwer MCP	Serwer Model Context Protocol zarejestrowany w twojej przestrzeni roboczej i udostępniany przez bramę Firewall MCP (`api.orcarouter.ai/api/v1/firewall/mcp`). Każde `tools/call`, które otrzymuje, jest ewaluowane inline. Zobacz Firewall MCP.
`tools/call`	Wiadomość protokołu MCP, która dyspozytuje narzędzie do serwera MCP. Firewall ewaluuje ją na powierzchni `mcp` przed przekazaniem.
Rug-pull	Ryzyko w łańcuchu dostaw, gdzie serwer MCP lub zainstalowana zdolność zmienia lub rozszerza swoje definicje narzędzi po udzieleniu dostępu. OrcaRouter zarządza promieniem wybuchu: każde `tools/call` MCP jest ewaluowane przez firewall na powierzchni `mcp` wobec twoich reguł, a skill, który skanuje jako ryzykowny, jest wstrzymany w `quarantine` do czasu, gdy człowiek go przejrzy.
Skill	Pakiet zdolności (jedno lub więcej narzędzi z jednego lub więcej serwerów MCP), który brama skanuje pod kątem ryzyka przy rejestracji. Każdy skill dostaje pasmo ryzyka i tryb egzekwowania (`allow`, `quarantine`, `block`), który jedzie na wierzchu werdyktów na poziomie polityki.

Zgodność i dane

Termin	Definicja
Pakiet zgodności	Wbudowany pakiet guardrail + polityka firewalla dla profilu regulacyjnego (GDPR, PCI, HIPAA, dane finansowe). Zastosuj raz z biblioteki szablonów; reguły są edytowalne po zastosowaniu.
Podpisany raport zgodności	Raport atestacji na poziomie przestrzeni roboczej podpisany Ed25519. Podpis jest publicznie weryfikowalny — każdy z kluczem publicznym może potwierdzić, że raport nie był modyfikowany.
Rezydencja danych	Region zapisany dla twoich dowodów zgodności. Podpisane raporty zgodności są oznaczane i przechowywane według regionu (`us`, `eu`, `uk`, `ap`, `cn`, `global`), a raport jest serwowany tylko pod pasującym zadeklarowanym regionem. Ustaw w ustawieniach zgodności.
Prawo do usunięcia	Przy usunięciu przestrzeni roboczej lub jawnym żądaniu usunięcia, OrcaRouter przyznaje 30-dniowy okres łaski, a następnie skrobie PII z logów i rekordów audytu dla tej przestrzeni roboczej.
Zdarzenie audytu	Niezmienny rekord zapisywany po każdym tworzeniu, aktualizacji, usunięciu i decyzji egzekwowania — zmianach polityk, edycjach reguł, rozstrzygnięciach zatwierdzeń, zapisach guardrail. Wartości sekretów i bloby reguł nigdy nie są zapisywane do logu audytu.

Zagrożenia (jednolinijkowe)

Zagrożenie	Czym jest
Prompt injection	Atakujący osadza instrukcje w treści, którą agent przyjmuje (bezpośrednie: w wiadomości użytkownika; pośrednie: na stronie internetowej, w dokumencie lub wyniku narzędzia), aby przejąć zachowanie agenta.
Jailbreak	Spreparowany prompt, który próbuje obejść trening bezpieczeństwa modelu, zazwyczaj poprzez framing żądania jako odgrywanie ról, hipoteza lub nadpisanie systemu.
Nadmierne uprawnienia / zdezorientowany zastępca	Agent obdarzony szerszymi uprawnieniami niż wymaga jego zadanie, co czyni go trywialnie wyzywalnym przez wstrzyknięte instrukcje — kluczową mitygacją jest minimalne uprawnienia.
Eksfiltracja danych	Agent (lub wstrzyknięta instrukcja) kieruje wywołania narzędzi lub żądania wychodzące, aby wyciec wrażliwe dane do punktu końcowego kontrolowanego przez atakującego. Łagodzone przez reguły kontroli egress.
Denial-of-wallet	Rozbiegany lub zaatakowany adversarialnie agent, który generuje nieograniczone wydatki modelu nadrzędnego. Łagodzone przez `credit_limit_usd` na kluczu i reguły `cap_cost` w polityce firewalla.

Dla pełnego obrazu tego, jak te kontrole się komponują, patrz Zabezpieczanie agentów AI z OrcaRouter.

​Słownik bezpieczeństwa agentów AI

​Tożsamość i zakres

​Guardrails

​Agent Firewall

​Postawy

​MCP i skille

​Zgodność i dane

​Zagrożenia (jednolinijkowe)