Glossaire des concepts

Glossaire de sécurité des agents IA

Un index de référence rapide de chaque terme utilisé dans la documentation Zero Trust. Chaque définition est limitée à ce que vous, en tant que développeur sur la passerelle hébergée, pouvez observer et configurer. Les termes renvoient vers leurs pages d’accueil pour plus de détails.

Identité & portée

Terme	Définition
Espace de travail	La frontière du tenant au niveau supérieur. Toutes les clés, guardrails, politiques firewall et événements d’audit appartiennent à un espace de travail ; rien ne franchit les frontières du tenant. Voir Portée, clés & politiques.
Clé API (clé à portée limitée)	Un token bearer que votre agent présente à chaque appel. Porte sa propre liste blanche de modèles, ses restrictions IP, son plafond de dépenses, son expiration, et le guardrail + la politique firewall exacts qui s’appliquent. Voir Portée, clés & politiques.
`model_limits`	L’ensemble des modèles (ou globs de modèles) qu’une clé est autorisée à appeler. Les requêtes pour un modèle en dehors de la liste sont rejetées avant tout appel en amont.
`allow_ips`	Une liste blanche d’IP ou de CIDR sur la clé. Les requêtes provenant d’une adresse en dehors de la liste sont rejetées à l’authentification.
`credit_limit_usd` (plafond de dépenses)	Un plafond de dépenses strict sur la clé, en USD. Une fois que l’usage accumulé de la clé atteint le plafond, les requêtes suivantes sont rejetées. Utile pour borner les boucles d’agents incontrôlées.
Étiquette d’environnement	Une étiquette libre (ex. `production`, `staging`) attachée à une clé pour l’organiser et l’identifier par environnement de déploiement.
`is_firewall_gateway`	Un flag qui scope une clé pour les routes de la passerelle Firewall (`/api/v1/firewall/*`) — les endpoints de dispatch MCP et de hook d’évaluation. Une clé ordinaire obtient `403` sur ces routes.
Moindre agence	Le principe de donner à un agent uniquement les modèles, les dépenses, les IPs et les politiques dont il a réellement besoin — pas plus. Implémenté en combinant `model_limits`, `allow_ips`, `credit_limit_usd` et une politique firewall restrictive sur la même clé. Voir Portée, clés & politiques.

Guardrails

Terme	Définition
Guardrail	Une politique de contenu nommée, à portée d’espace de travail — une liste ordonnée de règles que la passerelle exécute contre l’entrée de la requête et la sortie du modèle. Attachez-le à une clé (ou définissez-le comme défaut de l’espace de travail) une fois ; chaque appel lié est filtré sans redéploiement.
Règle	Une vérification à l’intérieur d’un guardrail : un type (quoi détecter), une étape (où chercher), et une action (quoi faire). Les règles s’exécutent dans l’ordre.
Étape	`input` (la requête de l’appelant), `output` (la réponse du modèle), ou `both`. Une règle se déclenche uniquement à son étape déclarée.
Action	`block` — rejeter toute la requête (HTTP 400) ; `mask` — redacter la correspondance et laisser passer l’appel ; `flag` — journaliser uniquement, aucun changement de trafic.
`guardrail_blocked`	Le code d’erreur retourné quand une règle guardrail déclenche une action `block`. Retourne HTTP 400. La requête ne coûte aucun quota — les blocks en étape input se déclenchent avant la mesure ; les blocks en étape output remboursent le quota pré-consommé.
PII Shield	Une règle de type `pii` qui détecte les types d’entités sensibles intégrés (email, téléphone, SSN, carte de crédit, IP, et plus) et les masque avec des balises typées. (Le type de règle `pii` supporte également un `block` par entité quand vous la rédigez vous-même.) Le point de départ canonique pour la prévention des pertes de données. Les secrets et identifiants sont couverts par le preset Secrets Blocker séparé.
Guardrail d’injection de prompt	Une règle de sécurité qui détecte les tentatives de contenu non fiable (pages web, résultats d’outils) de détourner les instructions de l’agent. Livré comme preset Prompt-Injection Basics dans la catégorie de template Safety.
Filtre de mots sensibles	Une règle de type `keyword` qui correspond à une liste de termes littéraux, insensible à la casse. La liste de refus la plus simple.
Juge LLM	Une règle de type `llm_judge` qui exécute une vérification sémantique (toxicité, hors-sujet, intention de jailbreak) contre un modèle dans votre espace de travail. À utiliser pour les politiques floues qu’aucune regex ne peut capturer. Tokens facturés comme sous-ligne de juge.
Ancrage contextuel	Une règle de type `grounding` qui note la réponse du modèle par rapport aux sources RAG de la requête et signale ou bloque les réponses qui ne leur sont pas fidèles.
Log raw content	Un toggle par guardrail — désactivé par défaut (conservateur en matière de confidentialité). Quand désactivé, le flux Matches enregistre qu’une règle s’est déclenchée mais pas la sous-chaîne correspondante. Activez par guardrail quand vous avez besoin de la chaîne réelle pour le triage.
Flux Matches	L’enregistrement à l’échelle de l’espace de travail de chaque règle déclenchée : type de règle, action, étape, chaîne de détail, et (quand Log raw content est activé) la sous-chaîne correspondante. Filtrable par guardrail, type de règle et action.

Agent Firewall

Terme	Définition
Politique firewall	Un ensemble de règles ordonné nommé, à portée d’espace de travail, que la passerelle évalue sur chaque appel d’outil. Attachez-le une fois à une clé ou définissez-le comme défaut de l’espace de travail ; aucun changement de code d’agent requis.
Verdict	Le résultat qu’une règle (ou le défaut) produit pour un appel d’outil. L’un des suivants : `allow`, `audit`, `deny`, `sanitize`, `pending_approval` ou `cap_cost`.
Verdict par défaut	Le verdict appliqué quand aucune règle de la politique ne correspond à l’appel d’outil. Par défaut sur `audit` — autoriser tout et l’enregistrer — jusqu’à ce que vous soyez prêt à appliquer.
Surface d’application	Le point dans le cycle de vie de la requête où le firewall voit un appel : `inbound` (définitions d’outils que l’agent annonce), `response` (appels d’outils que le modèle émet), `mcp` (un `tools/call` via la passerelle MCP), ou `egress` (une destination sortante rapportée par un outil). Voir Firewall.
Liste blanche d’outils (glob)	Un `tool_name_glob` sur une règle — une petite grammaire sensible à la casse (`shell.`, `.exec`, `*`) qui correspond à un nom d’outil ou une famille. Premier-match-gagne contre la liste de règles ordonnée.
Validation d’arguments	Clauses `args_match` sur une règle — opérateurs `eq`, `contains`, `regex`, `in`, `cidr_match`, `gt`, `lt` sur des champs JSONPath dans les arguments de l’outil. La différence entre « bloquer `shell.exec` » et « bloquer `shell.exec` uniquement quand la commande est `rm -rf` ».
Sanitize	Un verdict `sanitize` qui redacte les sous-chaînes correspondantes (secrets, PII) des arguments de l’outil et transfère l’appel nettoyé, plutôt que de bloquer toute l’action. Escalade en block sur la surface `inbound`.
Contrôle d’egress	Une règle de surface `egress` avec une liste allow ou deny de host/CIDR — la défense principale contre le SSRF et l’exfiltration de données. Le niveau d’autonomie `tight` refuse également les outils de forme fetch courants (`http_fetch`, `fetch_url`, `web_search`, `request`).
`cap_cost`	Un verdict qui refuse les appels d’outils une fois que la dépense accumulée de l’exécution de l’agent (en centimes) dépasse un plafond par règle. Un disjoncteur pour les boucles d’agents incontrôlées ; rédigé comme une règle et se résout en allow ou deny dans les événements basé sur la dépense accumulée.
Règle de séquence	Une règle avec un bloc `sequence` qui correspond à une chaîne multi-étapes ordonnée d’appels d’outils dans une fenêtre temporelle (ex. bulk-read → export → egress). Appliqué de manière réactive par un matcher asynchrone ; apparaît dans le flux d’événements.
`firewall_blocked`	Le code d’erreur sur un appel d’outil refusé. Retourne HTTP 400 sur `inbound` ; une erreur d’outil sur `mcp`. Marqué skip-retry.
Approbation / HITL (`pending_approval`)	Un verdict `pending_approval` met un appel d’outil en attente de revue humaine. L’agent reçoit une réponse « held » avec un id d’approbation, un relecteur approuve ou rejette hors-bande, et l’agent re-soumet avec un token d’approbation à usage unique. Le code d’erreur HTTP pendant l’attente est `firewall_approval_pending`.
Détection d’anomalies	Couche statistique au-dessus des règles statiques. Note l’activité par outil contre une base de référence heure-de-la-semaine sur 14 jours et signale les pics, les boucles de nouvelle tentative, et les chemins de transition d’outil nouveaux sur un flux consultable.

Postures

Terme	Définition
Mode observe	Un réglage au niveau de l’espace de travail. Quand activé et qu’aucune politique n’est attachée à une clé, les appels d’outils sont autorisés mais journalisés comme des écarts de couverture, alimentant la vue Discovered-tools.
Mode shadow	Un flag sur une politique. La politique évalue et journalise exactement comme elle le ferait en production, mais chaque verdict appliquant est rétrogradé en `audit` (raison préfixée `[shadow] would …`). Interrupteur de déploiement sûr.
Enforce	L’état par défaut quand le mode shadow est désactivé et qu’une politique est attachée. Les verdicts prennent effet — `deny` bloque, `sanitize` redacte, `pending_approval` met en attente.
Niveau d’autonomie	Un seul interrupteur (`tight` / `balanced` / `permissive`) qui remplace atomiquement la posture Firewall et Guardrails de l’espace de travail en une transaction avec annulation en un clic. Voir Modes d’application et Référentiel Secure Agents.

MCP & skills

Terme	Définition
Serveur MCP	Un serveur Model Context Protocol enregistré dans votre espace de travail et exposé via la passerelle MCP du Firewall (`api.orcarouter.ai/api/v1/firewall/mcp`). Chaque `tools/call` qu’il reçoit est évalué en ligne. Voir Firewall MCP.
`tools/call`	Le message de protocole MCP qui dispatche un outil vers un serveur MCP. Le firewall l’évalue sur la surface `mcp` avant de le transférer.
Rug-pull	Un risque de chaîne d’approvisionnement où un serveur MCP ou une capacité installée change ou étend ses définitions d’outils après que vous lui avez accordé l’accès. OrcaRouter gouverne le rayon d’impact : chaque `tools/call` MCP est évalué par le firewall sur la surface `mcp` contre vos règles, et un skill qui scanne risqué est mis en `quarantine` jusqu’à ce qu’un humain le révise.
Skill	Un bundle de capacités (un ou plusieurs outils d’un ou plusieurs serveurs MCP) que la passerelle scanne pour le risque à l’enregistrement. Chaque skill obtient une bande de risque et un mode d’application (`allow`, `quarantine`, `block`) qui se superpose aux verdicts au niveau de la politique.

Conformité & données

Terme	Définition
Pack de conformité	Un bundle guardrail + politique firewall pré-construit pour un profil réglementaire (GDPR, PCI, HIPAA, données financières). Appliquez une fois depuis la bibliothèque de templates ; les règles sont modifiables après application.
Rapport de conformité signé	Un rapport d’attestation au niveau de l’espace de travail signé avec Ed25519. La signature est publiquement vérifiable — quiconque possède la clé publique peut confirmer que le rapport n’a pas été altéré.
Résidence des données	La région enregistrée pour votre preuve de conformité. Les rapports de conformité signés sont horodatés et stockés par région (`us`, `eu`, `uk`, `ap`, `cn`, `global`), et un rapport n’est servi que sous une région déclarée correspondante. Définissez-le dans les réglages de conformité.
Droit à l’effacement	Sur une suppression d’espace de travail ou une demande d’effacement explicite, OrcaRouter accorde une période de grâce de 30 jours, puis nettoie la PII des journaux et des enregistrements d’audit pour cet espace de travail.
Événement d’audit	Un enregistrement immuable écrit après chaque création, mise à jour, suppression et décision d’application — changements de politique, éditions de règles, résolutions d’approbation, sauvegardes de guardrail. Les valeurs secrètes et les blobs de règles ne sont jamais écrits dans le journal d’audit.

Menaces (une ligne)

Menace	Ce que c’est
Injection de prompt	Un attaquant incorpore des instructions dans le contenu que l’agent ingère (directe : dans le message de l’utilisateur ; indirecte : dans une page web, un document ou un résultat d’outil) pour détourner le comportement de l’agent.
Jailbreak	Un prompt conçu pour faire contourner à un modèle son entraînement à la sécurité, typiquement en encadrant la requête comme du jeu de rôle, une hypothèse ou un remplacement système.
Agence excessive / député confus	Un agent ayant des permissions plus larges que sa tâche ne nécessite, le rendant trivialement exploitable par des instructions injectées — l’atténuation clé est la moindre agence.
Exfiltration de données	Un agent (ou une instruction injectée) orientant les appels d’outils ou les requêtes sortantes pour faire fuiter des données sensibles vers un endpoint contrôlé par l’attaquant. Atténuée par les règles de contrôle d’egress.
Déni de portefeuille	Un agent incontrôlé ou déclenché de manière adversariale qui génère des dépenses de modèle en amont non bornées. Atténué par `credit_limit_usd` sur la clé et les règles `cap_cost` dans la politique firewall.

Pour la vue d’ensemble complète de la façon dont ces contrôles se composent, voir Sécuriser les agents IA avec OrcaRouter.

​Glossaire de sécurité des agents IA

​Identité & portée

​Guardrails

​Agent Firewall

​Postures

​MCP & skills

​Conformité & données

​Menaces (une ligne)