1. faq sulla sicurezza degli agent ai — parti da qui
Una mappa di 30 secondi su quale controllo risponde a quale domanda:| Stai chiedendo di… | Il piano | Leggi |
|---|---|---|
| Testo nei prompt o nelle risposte (PII, segreti, jailbreak) | Guardrails | Guardrails |
| Chiamate a tool, MCP, egress, skill | Firewall | Firewall |
Quale dei due è scattato su un 400 | Entrambi | Perché è stato bloccato? |
2. Guardrails — filtraggio dei contenuti
Cosa succede se nessun guardrail si risolve su una richiesta?
Cosa succede se nessun guardrail si risolve su una richiesta?
guardrail_id esplicito sulla chiave (se esiste ed è
abilitato) → altrimenti il guardrail is_default del workspace → altrimenti nessuna
applicazione. Un collegamento esplicito disabilitato è l’interruttore di
spegnimento — non ricade sul default. Con nulla risolto, la richiesta è
byte-identica a un workspace che non ha mai abilitato la feature.Una richiesta bloccata mi costa quota?
Una richiesta bloccata mi costa quota?
block restituisce 400 guardrail_blocked e non costa quota — un
block in fase di input scatta prima del metering; un block in fase di output
rimborsa la quota pre-consumata. È anche marcato skip-retry: ri-eseguire il
prompt identico si limita a bloccarlo di nuovo.Quali tipi di regola e azioni esistono?
Quali tipi di regola e azioni esistono?
keyword, regex, pii, max_chars, external, llm_judge,
grounding. Azioni: block (rifiuta), mask (redige e inoltra), flag (solo log,
nessuna modifica al traffico). Fasi: input, output, both. Vedi
Guardrails per ciascuno.Quali entità PII sono rilevate, e com'è fatto un mask?
Quali entità PII sono rilevate, e com'è fatto un mask?
email, phone, credit_card, ssn, ip, iban,
mac_address, jwt, aws_access_key, api_key_openai, bitcoin_address, più tipi
regionali (jp_mynumber, kr_rrn, cn_resident_id). Un’azione mask rende un tag
tipizzato — jane@acme.com → [EMAIL], un SSN → [SSN]. Puoi stratificare fino a
25 entità regex personalizzate per regola (con un checksum Luhn opzionale) e fare
override dell’azione per entità tramite entity_actions.Il mascheramento dell'output è applicato sulle risposte streaming?
Il mascheramento dell'output è applicato sulle risposte streaming?
Quanto costa l'LLM judge?
Quanto costa l'LLM judge?
keyword / regex / pii / max_chars non fanno alcuna chiamata al
modello e non fatturano nulla. Una regola llm_judge esegue un controllo semantico
attraverso un modello del workspace (limitato da judge_timeout_ms, fail-open di
default) ed è fatturata come una sotto-voce judge separata. Una regola
grounding valuta la fedeltà della risposta rispetto alle fonti recuperate della
richiesta (soglia default 0.7) allo stesso modo.Posso vedere cosa ha effettivamente corrisposto una regola?
Posso vedere cosa ha effettivamente corrisposto una regola?
GET /api/guardrail/match, Member). Ogni riga registra il
tipo di regola, l’azione, la fase e una stringa di dettaglio — e la sottostringa
corrispondente solo se “Log raw content” è attivo per quel guardrail
(disattivato di default, la postura conservativa sulla privacy). Block sbagliato?
Marcalo come falso positivo (POST /api/guardrail/match/:id/mark-fp, Admin).Scansionate le dipendenze per CVE noti?
Scansionate le dipendenze per CVE noti?
block / mask / flag che crei direttamente. Connetti uno scanner sotto
Integrations per pilotarlo.3. Firewall — azioni dell’agent
In cosa differisce il firewall dai guardrail sulla risoluzione?
In cosa differisce il firewall dai guardrail sulla risoluzione?
firewall_policy_id / guardrail_id) e condividono il fallback sul default del
workspace. Vedi
Guardrails vs Firewall.Quali sono i verdetti e le superfici?
Quali sono i verdetti e le superfici?
allow, audit, deny, sanitize, pending_approval, cap_cost.
default_verdict è allow / audit / deny (audit di default). Superfici:
inbound (tool pubblicizzati), response (tool_calls emessi dal modello), mcp
(un tools/call), egress (host/IP/CIDR in uscita). Il
glossario dei verdetti decodifica ciascuno.`sanitize` ripulisce ciò che un tool restituisce?
`sanitize` ripulisce ciò che un tool restituisce?
sanitize redige le sottostringhe
corrispondenti solo dagli argomenti della chiamata a tool, mai il contenuto che un
tool restituisce. Sulla superficie inbound (nessun argomento ancora al momento
della chiamata) sanitize escala a un deny.Cosa fanno i livelli di autonomia?
Cosa fanno i livelli di autonomia?
autonomy_*
modificabili:•
balanced (inizio consigliato) — default audit, deny shell distruttiva,
PII Shield in solo-audit (segnala i PII).•
tight — default-deny, deny shell distruttiva, deny dei tool di fetch in forma
di SSRF, PII Shield + Secrets Blocker applicati.•
permissive — solo observe.L’undo a un clic ripristina lo stato precedente dallo snapshot di audit che l’apply ha scritto. È un singolo step — l’undo non è disponibile una volta che un apply successivo (o una modifica manuale alla policy) ha soppiantato quello snapshot. Vedi Modalità di applicazione.
Il preset SSRF blocca gli IP privati e i cloud metadata?
Il preset SSRF blocca gli IP privati e i cloud metadata?
tight nega i comuni nomi di tool in
forma di fetch (http_fetch, web_search, fetch_url, request). Per negare per
destinazione — range RFC-1918, IP di cloud-metadata, CIDR specifici — crea la tua
regola di deny host/CIDR sulla superficie egress. Nessun preset fornisce regole CIDR
per te. Vedi Egress ed esfiltrazione di dati.Come faccio il rollout di una policy senza rompere il traffico?
Come faccio il rollout di una policy senza rompere il traffico?
audit, prefissando la motivazione [shadow] would ….
Osserva le viste Events e Runs, poi disattiva la shadow per applicare. La
observe mode a livello di workspace (firewall_observe_mode) è il quadrante di
scoperta complementare — logga le chiamate non coperte come gap in Discovered
Tools.Come funziona l'approvazione umana (HITL)?
Come funziona l'approvazione umana (HITL)?
pending_approval restituisce 400 firewall_approval_pending con un id
di approvazione. Un revisore la risolve dalla console (Developer+) o tramite un
callback webhook HMAC (POST /api/v1/firewall/approvals/:id/callback). L’agent fa
polling su GET /api/v1/firewall/approvals/:id e ri-invia la chiamata originale con
un header monouso X-OrcaRouter-Firewall-Approval. Vedi
Chiamate a tool pericolose.Cosa cerca il rilevamento delle anomalie?
Cosa cerca il rilevamento delle anomalie?
retry_loop e novel_path (una transizione da tool a tool mai vista
prima). Il feed è leggibile dai Member; metti in snooze un’anomalia per un massimo di
7 giorni. Vedi Eccessiva agency.4. MCP, chiavi e accesso al gateway
Come sono governati gli MCP server?
Come sono governati gli MCP server?
name, endpoint, auth_mode di
none/bearer/oauth/basic, credenziali cifrate) e il gateway MCP valuta ogni
tools/call sulla superficie mcp prima del dispatch. La salute è tracciata
(ok/degraded/down); fai il probe con
POST /api/workspace/firewall/mcp_servers/:id/probe. Un probe fa anche da baseline
allo schema dei tool pubblicizzato dal server — un drift successivo fa passare il suo
schema status da verified a changed (il segnale “rug-pull”), e o ri-stabilisci la
baseline (approvi) o metti in quarantine il server. Quindi la governance è
valutazione per-chiamata più tracciamento dell’integrità dello schema e risk-band
delle skill. Vedi Firewall MCP e
Avvelenamento dei tool MCP.Cosa succede a una skill rischiosa o auto-rilevata?
Cosa succede a una skill rischiosa o auto-rilevata?
allow / quarantine / block. Una skill in
quarantena è messa in attesa di approvazione; le skill auto-rilevate restano in
quarantena finché un umano non le revisiona. La modalità sta al di sopra del verdetto
della regola.Quali campi della chiave blindano un agent?
Quali campi della chiave blindano un agent?
model_limits (+ model_limits_enabled), allow_ips, credit_limit_usd
(0 = illimitato), expired_time (-1 = mai), environment, guardrail_id,
firewall_policy_id, e is_firewall_gateway. Combinali per la minima agency —
vedi Scope, chiavi e policy.
Le chiavi sono mascherate in visualizzazione.Perché ricevo 403 su `/api/v1/firewall/*`?
Perché ricevo 403 su `/api/v1/firewall/*`?
POST /evaluate, POST /evaluate_plan, ANY /mcp)
richiedono una chiave con is_firewall_gateway=true — un token dedicato con scope
firewall-gateway, non la tua chiave di relay sk-orca-…. Coniarne uno e leggere il
suo plaintext è Admin+.Qual è la differenza tra configurare e chiamare?
Qual è la differenza tra configurare e chiamare?
/v1/* usa una chiave sk-orca-…; solo gli hook del gateway
/api/v1/firewall/* usano il token con scope firewall-gateway.5. Compliance, residency e dati
Quali framework sono coperti?
Quali framework sono coperti?
/api/compliance/*.Perché install/report sono gated?
Perché install/report sono gated?
POST /api/compliance/packs/:key/install) materializza veri guardrail + policy del
firewall che puoi poi modificare.I report di compliance sono verificabili?
I report di compliance sono verificabili?
GET /api/public/compliance/pubkey), verifica un report
(POST /api/public/compliance/verify), o consegna a un auditor un link di
condivisione (GET /api/public/compliance/share/:token). Gli export sono
CSV / JSON / PDF.Cosa fissa davvero la data residency?
Cosa fissa davvero la data residency?
us, eu, uk, ap,
cn, global), impostabile tramite PUT /api/compliance/residency (Admin); una
lettura cross-region viene trattenuta. Non è il geo-pinning dei tuoi dati di
inferenza. Vedi Responsabilità condivisa.Per quanto sono conservati i log, e come faccio a far cancellare i dati?
Per quanto sono conservati i log, e come faccio a far cancellare i dati?
