Słownik bezpieczeństwa agentów AI
Szybki indeks referencyjny każdego terminu używanego w dokumentacji Zero Trust. Każda definicja ma zakres tego, co ty jako deweloper na hostowanej bramie możesz obserwować i konfigurować. Terminy linkują do swoich stron głównych dla pełnych szczegółów.Tożsamość i zakres
| Termin | Definicja |
|---|---|
| Przestrzeń robocza | Najwyższy poziom granicy najemcy. Wszystkie klucze, guardrails, polityki firewalla i zdarzenia audytu należą do jednej przestrzeni roboczej; nic nie przekracza granic najemców. Zobacz Zakres, klucze i polityki. |
| Klucz API (klucz o ograniczonym zakresie) | Token bearer, który twój agent prezentuje przy każdym wywołaniu. Niesie własną listę dozwolonych modeli, ograniczenia IP, limit wydatków, wygaśnięcie i dokładną politykę guardrail + firewalla, która do niego ma zastosowanie. Zobacz Zakres, klucze i polityki. |
model_limits | Zestaw modeli (lub globów modeli), które klucz może wywoływać. Żądania dla modelu spoza listy są odrzucane przed jakimkolwiek wywołaniem nadrzędnym. |
allow_ips | Lista dozwolonych IP lub CIDR na kluczu. Żądania pochodzące z adresu spoza listy są odrzucane przy uwierzytelnianiu. |
credit_limit_usd (limit wydatków) | Twardy pułap wydatków na kluczu, w USD. Gdy skumulowane użycie klucza osiągnie pułap, dalsze żądania są odrzucane. Przydatne do ograniczania rozbieganych pętli agentów. |
| Znacznik środowiska | Dowolna etykieta (np. production, staging) dołączona do klucza w celu organizowania i identyfikowania go według środowiska wdrożenia. |
is_firewall_gateway | Flaga, która ogranicza klucz dla tras bramy Firewall (/api/v1/firewall/*) — endpointów dyspozycji MCP i hooka evaluate. Zwykły klucz dostaje 403 na tych trasach. |
| Minimalne uprawnienia | Zasada dawania agentowi tylko tych modeli, wydatków, IP i polityk, których faktycznie potrzebuje — i nic więcej. Implementowana przez kombinowanie model_limits, allow_ips, credit_limit_usd i restrykcyjnej polityki firewalla na tym samym kluczu. Zobacz Zakres, klucze i polityki. |
Guardrails
| Termin | Definicja |
|---|---|
| Guardrail | Nazwana, w zakresie przestrzeni roboczej polityka treści — uporządkowana lista reguł, którą brama uruchamia wobec wejścia żądania i wyjścia modelu. Dołącz ją do klucza (lub ustaw jako domyślną przestrzeni roboczej) raz; każde powiązane wywołanie jest sprawdzane bez ponownego wdrożenia. |
| Reguła | Jedno sprawdzenie wewnątrz guardrail: typ (co wykryć), etap (gdzie szukać) i akcja (co zrobić). Reguły biegną w kolejności. |
| Etap | input (żądanie wywołującego), output (odpowiedź modelu) lub both. Reguła odpala tylko na zadeklarowanym etapie. |
| Akcja | block — odrzuć całe żądanie (HTTP 400); mask — redaguj dopasowanie i pozwól na wywołanie; flag — tylko log, bez zmiany ruchu. |
guardrail_blocked | Kod błędu zwracany, gdy reguła guardrail wywołuje akcję block. Zwraca HTTP 400. Żądanie nie kosztuje żadnego limitu — blokady na etapie wejściowym odpalają przed pomiarem; blokady na etapie wyjściowym zwracają wstępnie pobraną porcję. |
| PII Shield | Reguła typu pii, która wykrywa wbudowane typy wrażliwych encji (email, telefon, SSN, karta kredytowa, IP i więcej) i maskuje je typowanymi tagami. (Typ reguły pii obsługuje też block per encja, gdy tworzysz własne reguły.) Kanoniczny punkt startowy dla zapobiegania utracie danych. Sekrety i poświadczenia są objęte przez oddzielny preset Secrets Blocker. |
| Guardrail prompt injection | Reguła bezpieczeństwa, która wykrywa próby niezaufanej treści (stron internetowych, wyników narzędzi) do przejęcia instrukcji agenta. Dostarczana jako preset Prompt-Injection Basics w kategorii szablonów Safety. |
| Filtr wrażliwych słów | Reguła typu keyword, która dopasowuje dosłowną listę terminów, bez rozróżniania wielkości liter. Najprostszy denylist. |
| Sędzia LLM | Reguła typu llm_judge, która uruchamia semantyczne sprawdzenie (toksyczność, off-topic, intencja jailbreaku) wobec modelu w twojej przestrzeni roboczej. Używaj dla rozmytych polityk, których żaden regex nie może wychwycić. Tokeny naliczane jako sub-linia sędziego. |
| Kontekstowe ugruntowanie | Reguła typu grounding, która ocenia odpowiedź modelu wobec źródeł RAG w żądaniu i flaguje lub blokuje odpowiedzi, które nie są im wierne. |
| Logowanie surowej treści | Przełącznik per guardrail — wyłączony domyślnie (ostrożność wobec prywatności). Przy wyłączonym strumień Matches rejestruje, że reguła odpaliła, ale nie dopasowany podłańcuch. Włącz per guardrail, gdy potrzebujesz faktycznego ciągu do triażu. |
| Strumień Matches | Rejestr przestrzeni roboczej każdej reguły, która odpaliła: typ reguły, akcja, etap, łańcuch szczegółów i (gdy Log raw content jest włączony) dopasowany podłańcuch. Filtrowalny według guardrail, typu reguły i akcji. |
Agent Firewall
| Termin | Definicja |
|---|---|
| Polityka firewalla | Nazwany, w zakresie przestrzeni roboczej zestaw uporządkowanych reguł, który brama ewaluuje przy każdym wywołaniu narzędzia. Dołącz raz do klucza lub ustaw jako domyślną przestrzeni roboczej; bez zmian w kodzie agenta. |
| Werdykt | Wynik, który reguła (lub wartość domyślna) produkuje dla wywołania narzędzia. Jeden z allow, audit, deny, sanitize, pending_approval lub cap_cost. |
| Domyślny werdykt | Werdykt stosowany, gdy żadna reguła w polityce nie pasuje do wywołania narzędzia. Domyślnie audit — zezwól na wszystko i rejestruj — dopóki nie jesteś gotowy do egzekwowania. |
| Powierzchnia egzekwowania | Punkt w cyklu życia żądania, w którym firewall widzi wywołanie: inbound (definicje narzędzi, które agent ogłasza), response (wywołania narzędzi, które model emituje), mcp (tools/call przez bramę MCP) lub egress (zewnętrzne miejsce docelowe zgłoszone przez narzędzie). Zobacz Firewall. |
| Lista dozwolonych narzędzi (glob) | tool_name_glob na regule — mała gramatyka rozróżniająca wielkość liter (shell.*, *.exec, *), która pasuje do nazwy narzędzia lub rodziny. Pierwszy pasujący wygrywa wobec uporządkowanej listy reguł. |
| Walidacja argumentów | Klauzule args_match na regule — operatory eq, contains, regex, in, cidr_match, gt, lt na polach JSONPath w argumentach narzędzia. Różnica między „blokuj shell.exec” a „blokuj shell.exec tylko gdy polecenie to rm -rf.” |
| Sanitize | Werdykt sanitize, który redaguje dopasowane podłańcuchy (sekrety, PII) z argumentów narzędzia i przekazuje oczyszczone wywołanie, zamiast blokować całą akcję. Na powierzchni inbound eskaluje do blokady. |
| Kontrola egress | Reguła na powierzchni egress z listą dozwolonych/zablokowanych hostów/CIDR — główna obrona przed SSRF i eksfiltraniem danych. Poziom autonomii tight odmawia też narzędziom w kształcie fetch (http_fetch, fetch_url, web_search, request). |
cap_cost | Werdykt, który odmawia wywołań narzędzi, gdy zakumulowane wydatki uruchomienia agenta (w centach) przekroczą per-rule pułap. Bezpiecznik dla rozbieganych pętli agentów; tworzony jako reguła i rozwiązuje się do allow lub deny w zdarzeniach na podstawie zakumulowanych wydatków. |
| Reguła sekwencji | Reguła z blokiem sequence, która pasuje do uporządkowanego wieloetapowego łańcucha wywołań narzędzi w oknie czasowym (np. bulk-read → eksport → egress). Egzekwowana reaktywnie przez asynchroniczny matcher; pojawia się w strumieniu zdarzeń. |
firewall_blocked | Kod błędu przy odmówionym wywołaniu narzędzia. Zwraca HTTP 400 na inbound; błąd narzędzia na mcp. Oznaczony skip-retry. |
Zatwierdzenie / HITL (pending_approval) | Werdykt pending_approval wstrzymuje wywołanie narzędzia do ludzkiego przeglądu. Agent otrzymuje odpowiedź wstrzymania z id zatwierdzenia, recenzent zatwierdza lub odrzuca poza pasmem, a agent ponownie przesyła z jednorazowym tokenem zatwierdzenia. Kod błędu HTTP podczas wstrzymania to firewall_approval_pending. |
| Wykrywanie anomalii | Warstwa statystyczna powyżej statycznych reguł. Ocenia aktywność per narzędzie wobec 14-dniowej bazowej linii godziny tygodnia i flaguje skoki, pętle powtórzeń i nowe ścieżki przejść narzędzi na przeglądanym strumieniu. |
Postawy
| Termin | Definicja |
|---|---|
| Tryb obserwacji | Ustawienie na poziomie przestrzeni roboczej. Gdy włączony i żadna polityka nie jest dołączona do klucza, wywołania narzędzi są dozwolone, ale logowane jako luki w pokryciu, wypełniając widok Discovered-tools. |
| Tryb cienia | Flaga na polityce. Polityka ewaluuje i loguje dokładnie tak jak na produkcji, ale każdy egzekwujący werdykt jest degradowany do audit (powód poprzedzony [shadow] would …). Przełącznik bezpiecznego wdrożenia. |
| Egzekwowanie | Domyślny stan, gdy tryb cienia jest wyłączony i polityka jest dołączona. Werdykty wchodzą w życie — deny blokuje, sanitize redaguje, pending_approval wstrzymuje. |
| Poziom autonomii | Jeden przełącznik (tight / balanced / permissive), który atomowo zastępuje postawę Firewall i Guardrails przestrzeni roboczej w jednej transakcji z jednym kliknięciem cofnięcia. Zobacz Tryby egzekwowania i Bazę Secure Agents. |
MCP i skille
| Termin | Definicja |
|---|---|
| Serwer MCP | Serwer Model Context Protocol zarejestrowany w twojej przestrzeni roboczej i udostępniany przez bramę Firewall MCP (api.orcarouter.ai/api/v1/firewall/mcp). Każde tools/call, które otrzymuje, jest ewaluowane inline. Zobacz Firewall MCP. |
tools/call | Wiadomość protokołu MCP, która dyspozytuje narzędzie do serwera MCP. Firewall ewaluuje ją na powierzchni mcp przed przekazaniem. |
| Rug-pull | Ryzyko w łańcuchu dostaw, gdzie serwer MCP lub zainstalowana zdolność zmienia lub rozszerza swoje definicje narzędzi po udzieleniu dostępu. OrcaRouter zarządza promieniem wybuchu: każde tools/call MCP jest ewaluowane przez firewall na powierzchni mcp wobec twoich reguł, a skill, który skanuje jako ryzykowny, jest wstrzymany w quarantine do czasu, gdy człowiek go przejrzy. |
| Skill | Pakiet zdolności (jedno lub więcej narzędzi z jednego lub więcej serwerów MCP), który brama skanuje pod kątem ryzyka przy rejestracji. Każdy skill dostaje pasmo ryzyka i tryb egzekwowania (allow, quarantine, block), który jedzie na wierzchu werdyktów na poziomie polityki. |
Zgodność i dane
| Termin | Definicja |
|---|---|
| Pakiet zgodności | Wbudowany pakiet guardrail + polityka firewalla dla profilu regulacyjnego (GDPR, PCI, HIPAA, dane finansowe). Zastosuj raz z biblioteki szablonów; reguły są edytowalne po zastosowaniu. |
| Podpisany raport zgodności | Raport atestacji na poziomie przestrzeni roboczej podpisany Ed25519. Podpis jest publicznie weryfikowalny — każdy z kluczem publicznym może potwierdzić, że raport nie był modyfikowany. |
| Rezydencja danych | Region zapisany dla twoich dowodów zgodności. Podpisane raporty zgodności są oznaczane i przechowywane według regionu (us, eu, uk, ap, cn, global), a raport jest serwowany tylko pod pasującym zadeklarowanym regionem. Ustaw w ustawieniach zgodności. |
| Prawo do usunięcia | Przy usunięciu przestrzeni roboczej lub jawnym żądaniu usunięcia, OrcaRouter przyznaje 30-dniowy okres łaski, a następnie skrobie PII z logów i rekordów audytu dla tej przestrzeni roboczej. |
| Zdarzenie audytu | Niezmienny rekord zapisywany po każdym tworzeniu, aktualizacji, usunięciu i decyzji egzekwowania — zmianach polityk, edycjach reguł, rozstrzygnięciach zatwierdzeń, zapisach guardrail. Wartości sekretów i bloby reguł nigdy nie są zapisywane do logu audytu. |
Zagrożenia (jednolinijkowe)
| Zagrożenie | Czym jest |
|---|---|
| Prompt injection | Atakujący osadza instrukcje w treści, którą agent przyjmuje (bezpośrednie: w wiadomości użytkownika; pośrednie: na stronie internetowej, w dokumencie lub wyniku narzędzia), aby przejąć zachowanie agenta. |
| Jailbreak | Spreparowany prompt, który próbuje obejść trening bezpieczeństwa modelu, zazwyczaj poprzez framing żądania jako odgrywanie ról, hipoteza lub nadpisanie systemu. |
| Nadmierne uprawnienia / zdezorientowany zastępca | Agent obdarzony szerszymi uprawnieniami niż wymaga jego zadanie, co czyni go trywialnie wyzywalnym przez wstrzyknięte instrukcje — kluczową mitygacją jest minimalne uprawnienia. |
| Eksfiltracja danych | Agent (lub wstrzyknięta instrukcja) kieruje wywołania narzędzi lub żądania wychodzące, aby wyciec wrażliwe dane do punktu końcowego kontrolowanego przez atakującego. Łagodzone przez reguły kontroli egress. |
| Denial-of-wallet | Rozbiegany lub zaatakowany adversarialnie agent, który generuje nieograniczone wydatki modelu nadrzędnego. Łagodzone przez credit_limit_usd na kluczu i reguły cap_cost w polityce firewalla. |
Dla pełnego obrazu tego, jak te kontrole się komponują, patrz Zabezpieczanie agentów AI z OrcaRouter.
