Tout ici est en lecture seule ou en sandbox — aucun block visible par
l’utilisateur, aucun trafic de production affecté. (Les règles mot-clé, regex
et PII s’exécutent entièrement en local ; une règle
llm_judge appelle
quand même son modèle configuré, donc une eval sur une politique de juge
fait bel et bien cet appel.) Le but est de casser les choses avant le
lancement, selon vos conditions.1. Comment red-teamer un agent IA avant le lancement
Un red team pré-lancement répond à trois questions, et OrcaRouter a un outil pour chacune :Mon guardrail attrape-t-il les attaques ?
Exécutez le harnais Eval du guardrail contre des corpus adversariaux
intégrés et lisez en retour précision / rappel / F1.
Qu'est-ce que mon firewall casserait ?
Activez le mode shadow et regardez quels appels d’outils réels
seraient refusés — sans en refuser aucun pour l’instant.
Une posture plus serrée est-elle sûre ?
Simulez un niveau d’autonomie pour prévisualiser exactement ce qu’il
changerait contre votre trafic avant de l’appliquer.
2. Scorez votre guardrail contre des corpus adversariaux
La façon la plus rapide de savoir si une politique de contenu survit au contact d’un attaquant est de lui lancer un corpus d’attaques connues et de lire le score. L’onglet Eval de l’éditeur de guardrail fait exactement cela : il rejoue chaque échantillon d’un corpus à travers votre politique actuelle et compare le verdict au résultat attendu de chaque échantillon — en rejouant le corpus en local contre vos règles, jamais contre du trafic en direct. OrcaRouter livre des corpus red-team intégrés afin que vous n’ayez pas à sourcer les vôtres. Parmi eux :| Corpus | Ce que c’est |
|---|---|
advbench_harmful_behaviors | Le jeu cible canonique de suffixe adversarial — chaque ligne est une requête non sûre qu’un guardrail devrait bloquer. |
anthropic_hh_redteam | De vrais transcripts red-team humains multi-tours contre un assistant. |
deepset_prompt_injections | Requêtes d’injection de prompt vs bénignes étiquetées — une baseline précision/rappel pour un block au stade input. |
databricks_dolly_benign | Une baseline purement bénigne : une politique trop stricte ne devrait en bloquer aucune. |
deepset_prompt_injections :
- TP / FP / FN / TN — vrais/faux positifs et négatifs, où un « faux positif » inclut le fait d’attraper une attaque avec la mauvaise classe d’action (par ex. masquer quand vous attendiez un block).
- Précision / Rappel / F1 — les chiffres phares. Un rappel faible signifie que des attaques passent ; une précision faible signifie que vous bloquez du trafic bénin.
Où vit la défense contre l’injection de prompt. Le preset intégré
Prompt-Injection Basics est une règle de mot-clé sur l’action flag —
il fait remonter les phrases de jailbreak courantes pour revue sans bloquer
l’utilisateur. Pour l’intention d’injection sémantique qu’aucune liste de
mots-clés ne capture, ajoutez une règle
llm_judge et red-teamez-la de la
même façon : eval contre deepset_prompt_injections et
anthropic_hh_redteam et lisez le F1. Voir la
référence guardrail.3. Mode shadow du firewall contre du trafic réel
Une eval de guardrail teste du texte contre un corpus fixe. Votre firewall, en revanche, doit être testé contre la réalité désordonnée de ce que votre agent fait réellement — et la façon la plus sûre de faire cela avant le lancement est le mode shadow. Le mode shadow est un flag par politique qui fait que le firewall évalue et journalise chaque appel d’outil exactement comme il le ferait en production, mais rétrograde chaque verdict appliquant enaudit. Un deny
devient une ligne d’audit dont la raison est préfixée [shadow] would ….
Rien n’est bloqué. Rien ne casse. Mais le flux Events vous montre
maintenant la liste précise des appels que votre politique aurait rejetés.
C’est le red team du firewall : rédigez votre politique prévue la plus
stricte, activez le mode shadow, exécutez votre agent à travers une
répétition de lancement réaliste, puis lisez les événements [shadow] would ….
Rédigez la politique, puis shadow-la
Rédigez la politique, puis shadow-la
Construisez votre politique appliquante dans la console (Developer+)
— pour un dry-run de lancement, définissez
default_verdict sur audit
et ajoutez les règles de deny que vous comptez déployer. Basculez le
mode shadow sur activé. Toute la politique journalise maintenant sans
appliquer.Exercez l'agent comme si c'était le jour du lancement
Exercez l'agent comme si c'était le jour du lancement
Exécutez vos vrais flux d’agent contre la passerelle avec une clé
attachée à la politique en shadow. Chaque appel d’outil — inbound,
response, dispatch MCP, egress — est évalué et journalisé.
Lisez la liste des would-block
Lisez la liste des would-block
Ouvrez Firewall → Events (Developer+) et filtrez sur les raisons
[shadow] would …. Chacune est un appel que votre politique aurait
refusé en production. Confirmez que chaque entrée est un appel que vous
voulez refuser — et que rien de légitime n’est sur la liste.Désactivez le shadow pour passer en direct
Désactivez le shadow pour passer en direct
Une fois que la liste des would-block est propre, désactivez le mode
shadow. Le tout prochain appel correspondant est appliqué pour de vrai —
aucun autre changement.
4. Simulez une posture plus serrée avant de vous engager
Le troisième mouvement de red team est le moins cher : avant d’appliquer un niveau d’autonomie plus strict, simulez-le. Le simulateur prévisualise ce qu’appliquertight
(ou tout niveau) changerait contre le trafic récent de votre espace de
travail — combien d’appels basculeraient en deny — sans écrire une seule
ligne de politique.
tight ? » avant le lancement : si l’aperçu
montre un mur de refus potentiels sur des appels dont votre agent dépend,
vous avez des règles à assouplir avant le go-live, pas un incident
après.
Simulate est en aperçu seulement — il ne mute jamais vos politiques.
Appliquer un niveau d’autonomie est une action distincte, Developer+, et
c’est une transaction avec annulation en un clic si le résultat en direct
vous surprend quand même.
5. La checklist de red-team pré-lancement
Mettez les trois passes ensemble et vous avez une porte de lancement :| Passe | Outil | Vert quand |
|---|---|---|
| Politique de contenu | Guardrail Eval vs corpus attaque + bénin | Rappel élevé sur les attaques, aucun block sur le bénin |
| Politique d’action | Firewall mode shadow vs trafic de répétition | Chaque [shadow] would … est intentionnel |
| Couverture | Mode observe + Discovered tools | Aucun outil surprenant n’est dans une lacune de couverture |
| Posture | Simulate le niveau d’autonomie cible | L’aperçu correspond à ce que vous attendez |
https://api.orcarouter.ai/v1/... exactement comme avant.
6. Étapes suivantes
Modes d'application
Observe → shadow → enforce, le déploiement sûr que cette recette répète.
Le référentiel Secure Agents
Ce que chaque niveau d’autonomie définit — et comment
simulate le
prévisualise.Injection de prompt
La menace contre laquelle votre eval de guardrail score.
Passer en direct
Le basculement en production après que le red team passe.
