Tutto qui è in sola lettura o in sandbox — nessun block visibile all’utente,
nessun traffico di produzione interessato. (Le regole keyword, regex e PII girano
interamente in locale; una regola
llm_judge chiama comunque il suo modello
configurato, quindi un eval su una policy con judge fa quella chiamata.) Il punto
è rompere le cose prima del lancio, alle tue condizioni.1. Come fare red team di un agent AI prima del lancio
Un red team pre-lancio risponde a tre domande, e OrcaRouter ha uno strumento per ciascuna:Il mio guardrail coglie gli attacchi?
Esegui l’Eval harness del guardrail contro corpora adversarial integrati
e leggi precision / recall / F1.
Cosa romperebbe il mio firewall?
Attiva la shadow mode e osserva quali chiamate a tool reali verrebbero
negate — senza negarne ancora alcuna.
Una postura più stretta è sicura?
Simula un livello di autonomia per fare un’anteprima esatta di cosa
cambierebbe contro il tuo traffico prima di applicarlo.
2. Assegna un punteggio al tuo guardrail contro corpora adversarial
Il modo più rapido per sapere se una content policy sopravvive al contatto con un attaccante è lanciarle contro un corpus di attacchi noti e leggere il punteggio. Il tab Eval dell’editor del guardrail fa esattamente questo: riproduce ogni campione di un corpus attraverso la tua policy corrente e confronta il verdetto con l’esito atteso di ciascun campione — riproducendo il corpus localmente contro le tue regole, mai contro il traffico live. OrcaRouter fornisce corpora red-team integrati così non devi procurarti i tuoi. Tra questi:| Corpus | Cos’è |
|---|---|
advbench_harmful_behaviors | Il target set canonico di suffissi adversarial — ogni riga è una richiesta non sicura che un guardrail dovrebbe bloccare. |
anthropic_hh_redteam | Trascrizioni reali di red-team umano multi-turn contro un assistant. |
deepset_prompt_injections | Richieste etichettate prompt-injection vs benigne — una baseline di precision/recall per un block allo stage di input. |
databricks_dolly_benign | Una baseline puramente benigna: una policy troppo stretta non dovrebbe bloccarne nessuna. |
deepset_prompt_injections:
- TP / FP / FN / TN — veri/falsi positivi e negativi, dove un “falso positivo” include cogliere un attacco con la classe di azione sbagliata (es. mascherare quando ti aspettavi un block).
- Precision / Recall / F1 — i numeri di testa. Bassa recall significa che gli attacchi sfuggono; bassa precision significa che stai bloccando traffico benigno.
Dove vive la difesa dalla prompt-injection. Il preset integrato
Prompt-Injection Basics è una regola per keyword sull’azione flag — fa
emergere le frasi di jailbreak comuni per revisione senza bloccare l’utente. Per
l’intento di injection semantico che nessuna lista di keyword cattura, aggiungi
una regola
llm_judge e fanne red-team allo stesso modo: fai eval contro
deepset_prompt_injections e anthropic_hh_redteam e leggi l’F1. Vedi il
riferimento guardrail.3. Shadow-mode del firewall contro il traffico reale
Un eval di guardrail testa il testo contro un corpus fisso. Il tuo firewall, al contrario, deve essere testato contro la realtà disordinata di ciò che il tuo agent fa effettivamente — e il modo più sicuro per farlo prima del lancio è la shadow mode. La shadow mode è un flag per-policy che fa valutare e loggare al firewall ogni chiamata a tool esattamente come farebbe in produzione, ma declassa ogni verdetto applicativo aaudit. Un deny diventa una riga di audit la cui motivazione è
prefissata [shadow] would …. Nulla è bloccato. Nulla si rompe. Ma il feed
Events ora ti mostra l’elenco preciso delle chiamate che la tua policy
avrebbe rifiutato.
Questo è il red team del firewall: scrivi la tua policy più stretta intesa,
attiva la shadow mode, esegui il tuo agent attraverso una prova di lancio
realistica, poi leggi gli event [shadow] would ….
Scrivi la policy, poi falle shadow
Scrivi la policy, poi falle shadow
Costruisci la tua policy applicativa nella console (Developer+) — per un
dry-run di lancio, imposta
default_verdict ad audit e aggiungi le regole
di deny che intendi spedire. Attiva la shadow mode. L’intera policy ora
logga senza applicare.Esercita l'agent come se fosse il giorno del lancio
Esercita l'agent come se fosse il giorno del lancio
Esegui i tuoi flussi di agent reali contro il gateway con una chiave
collegata alla policy in shadow. Ogni chiamata a tool — inbound, response,
dispatch MCP, egress — è valutata e loggata.
Leggi la lista degli avrebbe-bloccato
Leggi la lista degli avrebbe-bloccato
Apri Firewall → Events (Developer+) e filtra per le motivazioni
[shadow] would …. Ognuna è una chiamata che la tua policy avrebbe negato in
produzione. Conferma che ogni voce sia una chiamata che vuoi negata — e che
nulla di legittimo sia nella lista.Disattiva la shadow per andare live
Disattiva la shadow per andare live
Una volta che la lista degli avrebbe-bloccato è pulita, disattiva la shadow
mode. La chiamata corrispondente successiva è applicata per davvero — nessun
altro cambiamento.
4. Simula una postura più stretta prima di impegnarti
La terza mossa di red-team è la più economica: prima di applicare un livello di autonomia più stretto, simulalo. Il simulatore fa un’anteprima di cosa applicaretight (o
qualsiasi livello) cambierebbe contro il traffico recente del tuo workspace —
quante chiamate passerebbero a deny — senza scrivere una singola riga di
policy.
tight?” prima del lancio: se l’anteprima mostra un muro
di diniegi su chiamate da cui il tuo agent dipende, hai regole da ammorbidire
prima del go-live, non un incidente dopo.
Simulate è solo anteprima — non muta mai le tue policy. Applicare un livello di
autonomia è un’azione separata, Developer+, ed è una transazione con undo a
un clic se il risultato live ti sorprende comunque.
5. La checklist di red-team pre-lancio
Metti insieme le tre passate e hai un gate di lancio:| Passata | Strumento | Verde quando |
|---|---|---|
| Content policy | Guardrail Eval vs corpora di attacco + benigni | Alta recall sugli attacchi, nessun block sui benigni |
| Action policy | Shadow mode del firewall vs traffico di prova | Ogni [shadow] would … è intenzionale |
| Copertura | Observe mode + Discovered tools | Nessun tool a sorpresa siede in un gap di copertura |
| Postura | Simulate il livello di autonomia target | L’anteprima combacia con ciò che ti aspetti |
https://api.orcarouter.ai/v1/... esattamente come
prima.
6. Prossimi passi
Modalità di applicazione
Observe → shadow → enforce, il rollout sicuro che questa ricetta prova.
La baseline Secure Agents
Cosa imposta ogni livello di autonomia — e come
simulate lo fa in anteprima.Prompt injection
Il threat contro cui il tuo eval di guardrail assegna il punteggio.
Go live
Il cutover di produzione dopo che il red team passa.
