Glossaire de sécurité des agents IA
Un index de référence rapide de chaque terme utilisé dans la documentation Zero Trust. Chaque définition est limitée à ce que vous, en tant que développeur sur la passerelle hébergée, pouvez observer et configurer. Les termes renvoient vers leurs pages d’accueil pour plus de détails.Identité & portée
| Terme | Définition |
|---|---|
| Espace de travail | La frontière du tenant au niveau supérieur. Toutes les clés, guardrails, politiques firewall et événements d’audit appartiennent à un espace de travail ; rien ne franchit les frontières du tenant. Voir Portée, clés & politiques. |
| Clé API (clé à portée limitée) | Un token bearer que votre agent présente à chaque appel. Porte sa propre liste blanche de modèles, ses restrictions IP, son plafond de dépenses, son expiration, et le guardrail + la politique firewall exacts qui s’appliquent. Voir Portée, clés & politiques. |
model_limits | L’ensemble des modèles (ou globs de modèles) qu’une clé est autorisée à appeler. Les requêtes pour un modèle en dehors de la liste sont rejetées avant tout appel en amont. |
allow_ips | Une liste blanche d’IP ou de CIDR sur la clé. Les requêtes provenant d’une adresse en dehors de la liste sont rejetées à l’authentification. |
credit_limit_usd (plafond de dépenses) | Un plafond de dépenses strict sur la clé, en USD. Une fois que l’usage accumulé de la clé atteint le plafond, les requêtes suivantes sont rejetées. Utile pour borner les boucles d’agents incontrôlées. |
| Étiquette d’environnement | Une étiquette libre (ex. production, staging) attachée à une clé pour l’organiser et l’identifier par environnement de déploiement. |
is_firewall_gateway | Un flag qui scope une clé pour les routes de la passerelle Firewall (/api/v1/firewall/*) — les endpoints de dispatch MCP et de hook d’évaluation. Une clé ordinaire obtient 403 sur ces routes. |
| Moindre agence | Le principe de donner à un agent uniquement les modèles, les dépenses, les IPs et les politiques dont il a réellement besoin — pas plus. Implémenté en combinant model_limits, allow_ips, credit_limit_usd et une politique firewall restrictive sur la même clé. Voir Portée, clés & politiques. |
Guardrails
| Terme | Définition |
|---|---|
| Guardrail | Une politique de contenu nommée, à portée d’espace de travail — une liste ordonnée de règles que la passerelle exécute contre l’entrée de la requête et la sortie du modèle. Attachez-le à une clé (ou définissez-le comme défaut de l’espace de travail) une fois ; chaque appel lié est filtré sans redéploiement. |
| Règle | Une vérification à l’intérieur d’un guardrail : un type (quoi détecter), une étape (où chercher), et une action (quoi faire). Les règles s’exécutent dans l’ordre. |
| Étape | input (la requête de l’appelant), output (la réponse du modèle), ou both. Une règle se déclenche uniquement à son étape déclarée. |
| Action | block — rejeter toute la requête (HTTP 400) ; mask — redacter la correspondance et laisser passer l’appel ; flag — journaliser uniquement, aucun changement de trafic. |
guardrail_blocked | Le code d’erreur retourné quand une règle guardrail déclenche une action block. Retourne HTTP 400. La requête ne coûte aucun quota — les blocks en étape input se déclenchent avant la mesure ; les blocks en étape output remboursent le quota pré-consommé. |
| PII Shield | Une règle de type pii qui détecte les types d’entités sensibles intégrés (email, téléphone, SSN, carte de crédit, IP, et plus) et les masque avec des balises typées. (Le type de règle pii supporte également un block par entité quand vous la rédigez vous-même.) Le point de départ canonique pour la prévention des pertes de données. Les secrets et identifiants sont couverts par le preset Secrets Blocker séparé. |
| Guardrail d’injection de prompt | Une règle de sécurité qui détecte les tentatives de contenu non fiable (pages web, résultats d’outils) de détourner les instructions de l’agent. Livré comme preset Prompt-Injection Basics dans la catégorie de template Safety. |
| Filtre de mots sensibles | Une règle de type keyword qui correspond à une liste de termes littéraux, insensible à la casse. La liste de refus la plus simple. |
| Juge LLM | Une règle de type llm_judge qui exécute une vérification sémantique (toxicité, hors-sujet, intention de jailbreak) contre un modèle dans votre espace de travail. À utiliser pour les politiques floues qu’aucune regex ne peut capturer. Tokens facturés comme sous-ligne de juge. |
| Ancrage contextuel | Une règle de type grounding qui note la réponse du modèle par rapport aux sources RAG de la requête et signale ou bloque les réponses qui ne leur sont pas fidèles. |
| Log raw content | Un toggle par guardrail — désactivé par défaut (conservateur en matière de confidentialité). Quand désactivé, le flux Matches enregistre qu’une règle s’est déclenchée mais pas la sous-chaîne correspondante. Activez par guardrail quand vous avez besoin de la chaîne réelle pour le triage. |
| Flux Matches | L’enregistrement à l’échelle de l’espace de travail de chaque règle déclenchée : type de règle, action, étape, chaîne de détail, et (quand Log raw content est activé) la sous-chaîne correspondante. Filtrable par guardrail, type de règle et action. |
Agent Firewall
| Terme | Définition |
|---|---|
| Politique firewall | Un ensemble de règles ordonné nommé, à portée d’espace de travail, que la passerelle évalue sur chaque appel d’outil. Attachez-le une fois à une clé ou définissez-le comme défaut de l’espace de travail ; aucun changement de code d’agent requis. |
| Verdict | Le résultat qu’une règle (ou le défaut) produit pour un appel d’outil. L’un des suivants : allow, audit, deny, sanitize, pending_approval ou cap_cost. |
| Verdict par défaut | Le verdict appliqué quand aucune règle de la politique ne correspond à l’appel d’outil. Par défaut sur audit — autoriser tout et l’enregistrer — jusqu’à ce que vous soyez prêt à appliquer. |
| Surface d’application | Le point dans le cycle de vie de la requête où le firewall voit un appel : inbound (définitions d’outils que l’agent annonce), response (appels d’outils que le modèle émet), mcp (un tools/call via la passerelle MCP), ou egress (une destination sortante rapportée par un outil). Voir Firewall. |
| Liste blanche d’outils (glob) | Un tool_name_glob sur une règle — une petite grammaire sensible à la casse (shell.*, *.exec, *) qui correspond à un nom d’outil ou une famille. Premier-match-gagne contre la liste de règles ordonnée. |
| Validation d’arguments | Clauses args_match sur une règle — opérateurs eq, contains, regex, in, cidr_match, gt, lt sur des champs JSONPath dans les arguments de l’outil. La différence entre « bloquer shell.exec » et « bloquer shell.exec uniquement quand la commande est rm -rf ». |
| Sanitize | Un verdict sanitize qui redacte les sous-chaînes correspondantes (secrets, PII) des arguments de l’outil et transfère l’appel nettoyé, plutôt que de bloquer toute l’action. Escalade en block sur la surface inbound. |
| Contrôle d’egress | Une règle de surface egress avec une liste allow ou deny de host/CIDR — la défense principale contre le SSRF et l’exfiltration de données. Le niveau d’autonomie tight refuse également les outils de forme fetch courants (http_fetch, fetch_url, web_search, request). |
cap_cost | Un verdict qui refuse les appels d’outils une fois que la dépense accumulée de l’exécution de l’agent (en centimes) dépasse un plafond par règle. Un disjoncteur pour les boucles d’agents incontrôlées ; rédigé comme une règle et se résout en allow ou deny dans les événements basé sur la dépense accumulée. |
| Règle de séquence | Une règle avec un bloc sequence qui correspond à une chaîne multi-étapes ordonnée d’appels d’outils dans une fenêtre temporelle (ex. bulk-read → export → egress). Appliqué de manière réactive par un matcher asynchrone ; apparaît dans le flux d’événements. |
firewall_blocked | Le code d’erreur sur un appel d’outil refusé. Retourne HTTP 400 sur inbound ; une erreur d’outil sur mcp. Marqué skip-retry. |
Approbation / HITL (pending_approval) | Un verdict pending_approval met un appel d’outil en attente de revue humaine. L’agent reçoit une réponse « held » avec un id d’approbation, un relecteur approuve ou rejette hors-bande, et l’agent re-soumet avec un token d’approbation à usage unique. Le code d’erreur HTTP pendant l’attente est firewall_approval_pending. |
| Détection d’anomalies | Couche statistique au-dessus des règles statiques. Note l’activité par outil contre une base de référence heure-de-la-semaine sur 14 jours et signale les pics, les boucles de nouvelle tentative, et les chemins de transition d’outil nouveaux sur un flux consultable. |
Postures
| Terme | Définition |
|---|---|
| Mode observe | Un réglage au niveau de l’espace de travail. Quand activé et qu’aucune politique n’est attachée à une clé, les appels d’outils sont autorisés mais journalisés comme des écarts de couverture, alimentant la vue Discovered-tools. |
| Mode shadow | Un flag sur une politique. La politique évalue et journalise exactement comme elle le ferait en production, mais chaque verdict appliquant est rétrogradé en audit (raison préfixée [shadow] would …). Interrupteur de déploiement sûr. |
| Enforce | L’état par défaut quand le mode shadow est désactivé et qu’une politique est attachée. Les verdicts prennent effet — deny bloque, sanitize redacte, pending_approval met en attente. |
| Niveau d’autonomie | Un seul interrupteur (tight / balanced / permissive) qui remplace atomiquement la posture Firewall et Guardrails de l’espace de travail en une transaction avec annulation en un clic. Voir Modes d’application et Référentiel Secure Agents. |
MCP & skills
| Terme | Définition |
|---|---|
| Serveur MCP | Un serveur Model Context Protocol enregistré dans votre espace de travail et exposé via la passerelle MCP du Firewall (api.orcarouter.ai/api/v1/firewall/mcp). Chaque tools/call qu’il reçoit est évalué en ligne. Voir Firewall MCP. |
tools/call | Le message de protocole MCP qui dispatche un outil vers un serveur MCP. Le firewall l’évalue sur la surface mcp avant de le transférer. |
| Rug-pull | Un risque de chaîne d’approvisionnement où un serveur MCP ou une capacité installée change ou étend ses définitions d’outils après que vous lui avez accordé l’accès. OrcaRouter gouverne le rayon d’impact : chaque tools/call MCP est évalué par le firewall sur la surface mcp contre vos règles, et un skill qui scanne risqué est mis en quarantine jusqu’à ce qu’un humain le révise. |
| Skill | Un bundle de capacités (un ou plusieurs outils d’un ou plusieurs serveurs MCP) que la passerelle scanne pour le risque à l’enregistrement. Chaque skill obtient une bande de risque et un mode d’application (allow, quarantine, block) qui se superpose aux verdicts au niveau de la politique. |
Conformité & données
| Terme | Définition |
|---|---|
| Pack de conformité | Un bundle guardrail + politique firewall pré-construit pour un profil réglementaire (GDPR, PCI, HIPAA, données financières). Appliquez une fois depuis la bibliothèque de templates ; les règles sont modifiables après application. |
| Rapport de conformité signé | Un rapport d’attestation au niveau de l’espace de travail signé avec Ed25519. La signature est publiquement vérifiable — quiconque possède la clé publique peut confirmer que le rapport n’a pas été altéré. |
| Résidence des données | La région enregistrée pour votre preuve de conformité. Les rapports de conformité signés sont horodatés et stockés par région (us, eu, uk, ap, cn, global), et un rapport n’est servi que sous une région déclarée correspondante. Définissez-le dans les réglages de conformité. |
| Droit à l’effacement | Sur une suppression d’espace de travail ou une demande d’effacement explicite, OrcaRouter accorde une période de grâce de 30 jours, puis nettoie la PII des journaux et des enregistrements d’audit pour cet espace de travail. |
| Événement d’audit | Un enregistrement immuable écrit après chaque création, mise à jour, suppression et décision d’application — changements de politique, éditions de règles, résolutions d’approbation, sauvegardes de guardrail. Les valeurs secrètes et les blobs de règles ne sont jamais écrits dans le journal d’audit. |
Menaces (une ligne)
| Menace | Ce que c’est |
|---|---|
| Injection de prompt | Un attaquant incorpore des instructions dans le contenu que l’agent ingère (directe : dans le message de l’utilisateur ; indirecte : dans une page web, un document ou un résultat d’outil) pour détourner le comportement de l’agent. |
| Jailbreak | Un prompt conçu pour faire contourner à un modèle son entraînement à la sécurité, typiquement en encadrant la requête comme du jeu de rôle, une hypothèse ou un remplacement système. |
| Agence excessive / député confus | Un agent ayant des permissions plus larges que sa tâche ne nécessite, le rendant trivialement exploitable par des instructions injectées — l’atténuation clé est la moindre agence. |
| Exfiltration de données | Un agent (ou une instruction injectée) orientant les appels d’outils ou les requêtes sortantes pour faire fuiter des données sensibles vers un endpoint contrôlé par l’attaquant. Atténuée par les règles de contrôle d’egress. |
| Déni de portefeuille | Un agent incontrôlé ou déclenché de manière adversariale qui génère des dépenses de modèle en amont non bornées. Atténué par credit_limit_usd sur la clé et les règles cap_cost dans la politique firewall. |
Pour la vue d’ensemble complète de la façon dont ces contrôles se composent, voir Sécuriser les agents IA avec OrcaRouter.
