https://api.orcarouter.ai/v1/... exactement comme avant.
Nouveau dans le modèle ? Lisez Modes d’application
pour ce que chaque posture fait mécaniquement, et le
référentiel Secure Agents
pour ce que chaque niveau d’autonomie définit. Cette page est la séquence
— l’ordre dans lequel vous basculez les interrupteurs.
1. Le déploiement de sécurité IA en trois mouvements
Tout le déploiement échange de l’autonomie contre de la sécurité en trois étapes, chacune vérifiée contre du trafic en direct avant la suivante :Observe
Autorisez tout, journalisez tout. Les appels d’outils non couverts
atterrissent dans Discovered Tools ; les règles de guardrail
flag
enregistrent les correspondances sans changer le trafic. Vous apprenez la
forme réelle de votre agent.Shadow
Une vraie politique évalue chaque appel, mais chaque verdict appliquant
est rétrogradé en
audit et journalisé [shadow] would …. Vous voyez
exactement ce qui bloquerait — sans que rien ne soit réellement bloqué.Enforce
Shadow désactivé.
deny bloque, mask redacte, pending_approval met
en attente. L’autonomie passe de large (balanced) à serrée (tight),
et votre agent est gouverné.2. Mouvement un — observe (autonomie = permissive)
Partez aussi large que possible. Appliquez le niveau d’autonomiepermissive depuis Firewall → Posture (Developer+) — ou
POST /api/workspace/firewall/autonomy. Il active le mode observe de
l’espace de travail et ne laisse aucune politique appliquante, de sorte que
chaque appel soit autorisé et chaque appel non couvert soit journalisé comme
une lacune de couverture.
- Firewall → Discovered Tools (Member) — chaque outil que votre agent appelle, marqué covered ou gap. C’est l’entrée pour vos règles : vous êtes sur le point d’écrire de la politique pour du trafic qui se produit réellement, pas des hypothèses.
- Guardrails → Matches (Member) — si vous avez ajouté des règles à
action
flag, chaque correspondance qu’elles enregistrent, sans toucher la requête.
3. Mouvement deux — shadow (une vraie politique, zéro blocage)
Maintenant, rédigez la politique que vous voulez vraiment — globs d’outils, clauses d’arguments, listes d’egress, un plafondcap_cost — et activez le
shadow_mode avant de l’attacher. (Construisez les règles à partir des
règles du firewall ; le modèle de politique
complet est dans la référence Firewall.)
shadow_mode: true, ce deny et ce cap_cost sont tous deux
rétrogradés en audit au moment de l’évaluation — le moteur calcule le
verdict réel, le journalise préfixé [shadow] would …, et laisse passer
l’appel. Attachez la politique aux clés que vous déployez (définissez
firewall_policy_id sur la clé) ou faites-en le défaut de l’espace de
travail.
Puis lisez Firewall → Events / Runs (Developer+) filtré sur le préfixe
[shadow] et confirmez les deux côtés :
Elle se déclenche là où vous le vouliez
Elle se déclenche là où vous le vouliez
Chaque appel
shell.exec montre [shadow] would deny. Chaque exécution
qui franchit votre plafond montre [shadow] would cap_cost. La politique
voit le trafic pour lequel vous l’avez construite.Elle NE se déclenche PAS là où vous ne le vouliez pas
Elle NE se déclenche PAS là où vous ne le vouliez pas
Aucun outil légitime n’apparaît avec un verdict would-block. C’est la
vérification des faux positifs — la raison pour laquelle le shadow
existe. Si un outil dont vous avez besoin est signalé, corrigez la règle
et re-regardez avant d’appliquer quoi que ce soit.
4. Mouvement trois — enforce (autonomie balanced, puis tight)
Quand le journal shadow semble correct, appliquez en deux étapes, pas une. Ne sautez pas directement au deny par défaut. D’abord,balanced. C’est la première posture appliquante recommandée :
le verdict par défaut du firewall est audit, mais les actions les plus
destructrices (comme le shell destructeur) sont refusées, et le
guardrail PII Shield s’exécute en audit-only — il signale la PII sans
la masquer encore. Vous bloquez maintenant la pire chose tout en observant
encore le reste.
Désactivez le shadow_mode sur votre propre politique dans le même
mouvement afin que ses verdicts deny / cap_cost passent en direct aux
côtés du référentiel.
[shadow]. Un appel d’outil refusé renvoie une HTTP 400
firewall_blocked ; il est skip-retry et ne coûte aucun token de
modèle.
Puis, tight. Une fois que balanced est calme, passez au deny par
défaut. Le niveau tight refuse par défaut, refuse le shell destructeur
et l’egress SSRF, et applique PII Shield + Secrets Blocker — la PII
est masquée sur la requête avant que le modèle ne la voie, et les secrets
dans vos requêtes sont bloqués. Un prompt bloqué renvoie une HTTP 400
guardrail_blocked, ne coûte aucun quota, et est skip-retry.
| Étape | Firewall (actions) | Guardrails (texte) | Ce que vous prouvez |
|---|---|---|---|
permissive | Observe ; rien bloqué | flag seulement | La forme réelle du trafic |
balanced | Audit par défaut ; shell destructeur refusé | PII signalée | Le pire cas est arrêté |
tight | Deny par défaut ; outils shell + fetch (SSRF) refusés | PII masquée, secrets bloqués | Zero-trust complet |
Réserve sur le streaming pour la PII. Sous
tight, PII Shield masque la
PII sur la requête avant que le modèle ne la voie — c’est actif. Le
masquage côté sortie d’une réponse streamée n’est pas encore actif ; un
block de sortie est appliqué en streaming (le scanner coupe le flux). Si
vous dépendez de la redaction de la sortie du modèle, vérifiez votre
combinaison stage/stream dans l’onglet Test du guardrail d’abord. Voir
Guardrails.5. La trappe de secours — annulation en un clic
Chaque changement d’autonomie est une seule transaction qui capture en snapshot votre posture antérieure, de sorte que vous puissiez revenir directement en arrière depuis Firewall → Posture (ouPOST /api/workspace/firewall/autonomy/undo/:audit_id). Vous pouvez aussi
simplement réappliquer un niveau plus souple — faire redescendre tight à
balanced, ou balanced à permissive — à tout moment.
6. D’où viennent les verdicts de chaque mouvement
Le déploiement ne bloque jamais quelque chose que vous n’avez pas demandé, parce que chaque posture correspond à un mécanisme explicite et observable :| Posture | Mécanisme | Résultat |
|---|---|---|
| Observe | firewall_observe_mode de l’espace de travail activé + guardrail flag | Autoriser + journaliser lacunes / correspondances |
| Shadow | shadow_mode par politique | Verdict réel calculé, rétrogradé en audit, journalisé [shadow] would … |
| Enforce | shadow_mode désactivé + autonomie tight/balanced | deny / mask / cap_cost passent en direct |
audit, l’action flag, et
shadow_mode — sont des interrupteurs distincts, documentés côte à côte
dans Modes d’application.
7. Étapes suivantes
Modes d'application
La carte des mécanismes derrière observe, shadow et enforce.
Référentiel Secure Agents
Ce que chaque niveau d’autonomie définit, et comment le simuler d’abord.
Maîtriser un agent autonome
L’étape suivante une fois que vous avez appliqué : plafonds de coût,
détection d’anomalies, et approbations.
Agent Firewall
Politiques, règles, verdicts, mode shadow, et la passerelle MCP en
entier.
