Passer au contenu principal
C’est le chemin le plus rapide d’un agent non protégé à une posture zero trust. Vous appliquez un interrupteur, continuez d’appeler la passerelle exactement comme avant, regardez ce que votre agent fait réellement, puis resserrez. Aucune règle à rédiger, aucun changement de SDK.
Appliquer une posture de sécurité modifie un réglage de l’espace de travail, donc les étapes 2 et 5 nécessitent le rôle Developer. Le flux Matches des guardrails (étape 4) est ouvert à tout membre ; le flux Events du firewall nécessite également Developer.

Activez-le en 5 étapes

1

Obtenir une clé API

Si vous n’en avez pas encore, créez une clé — voir Obtenir une clé API. Donnez cette clé à l’agent que vous voulez sécuriser. Tout ce qui suit se lie à votre espace de travail, donc la même posture couvre chaque clé dans celui-ci.
2

Appliquer le référentiel Secure Agents

Dans la console, ouvrez Firewall → Posture et appliquez le niveau d’autonomie balanced (rôle Developer).En une transaction, cela définit votre posture Firewall et Guardrails : les appels d’outils sont audités et la PII est signalée, tandis que les actions les plus destructrices (comme le shell destructeur) sont refusées — afin que vous observiez avant d’appliquer largement. C’est un seul interrupteur avec annulation en un clic. (Pour un passage qui ne bloque rien du tout, commencez à permissive.)
3

Envoyer une requête exactement comme avant

Rien dans votre appel ne change. Utilisez la même clé, la même forme OpenAI :
curl https://api.orcarouter.ai/v1/chat/completions \
  -H "Authorization: Bearer sk-orca-..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openai/gpt-4o-mini",
    "messages": [
      {"role": "user", "content": "Summarize my notes and email me at jane@acme.com"}
    ]
  }'
La requête passe. Sous balanced elle n’est pas bloquée — elle est observée. L’email est signalé, et tous les appels d’outils que votre agent effectue sont enregistrés.
4

Voir ce que votre agent a réellement fait

Deux flux, tous deux à portée d’espace de travail :
  • Firewall → Events / Runs — chaque appel d’outil que votre agent a effectué, son verdict, et quelle surface il a touchée (l’outil qu’il a annoncé, l’appel que le modèle a émis, un dispatch MCP, ou une destination sortante).
  • Guardrails → Matches — chaque règle qui s’est déclenchée, comme l’email signalé, regroupée par guardrail et action.
C’est le bénéfice d’observer d’abord : vous voyez le comportement réel de votre agent avant qu’une règle puisse le casser.
5

Resserrer pour appliquer

Une fois que les flux semblent corrects, passez le niveau d’autonomie à tight sur la même page Firewall → Posture (rôle Developer).L’application est maintenant active : la PII est masquée avant que le modèle ne la voie, les secrets sont bloqués de vos requêtes, et les appels de shell destructeur et l’egress SSRF sont refusés. Un appel d’outil refusé revient avec HTTP 400 firewall_blocked ; un prompt bloqué revient avec HTTP 400 guardrail_blocked — et un block ne vous coûte aucun quota. Aucun changement applicatif — la toute prochaine requête est gouvernée.
C’est le zero trust activé : chaque prompt et réponse filtré, chaque appel d’outil et requête sortante routée gouvernés, chaque décision journalisée.

Ce que vous venez d’activer

CoucheSous balancedSous tight
Guardrails (texte)PII signalée (audit uniquement)PII masquée, secrets bloqués
Firewall (actions)Audité ; shell destructeur refuséRefus par défaut ; shell destructeur + egress SSRF refusés
VisibilitéComplète — Events + MatchesComplète — Events + Matches

Trop strict ?

Chaque changement d’autonomie est une transaction avec annulation en un clic, donc vous pouvez revenir directement à votre posture précédente depuis la page Firewall (ou l’API d’annulation). Vous pouvez aussi simplement ré-appliquer un niveau plus souple (balanced ou permissive) à tout moment.

Prochaines étapes

Le référentiel Secure Agents

Ce que chaque niveau d’autonomie définit, et comment simuler avant d’appliquer.

Modes d'application

Observe → shadow → enforce, le déploiement sûr en détail.

Guardrails

Rédigez vos propres règles de contenu au-delà du référentiel.

Agent Firewall

Rédigez des listes blanches d’outils, des vérifications d’arguments et des règles d’egress.