1. faq de sécurité des agents ia — commencez ici
Une carte de 30 secondes de quel contrôle répond à quelle question :| Vous demandez à propos de… | Le plan | À lire |
|---|---|---|
| Texte dans les prompts ou réponses (PII, secrets, jailbreaks) | Guardrails | Guardrails |
| Appels d’outils, MCP, egress, skills | Firewall | Firewall |
Lequel s’est déclenché sur un 400 | L’un ou l’autre | Pourquoi a-ce été bloqué ? |
2. Guardrails — filtrage de contenu
Que se passe-t-il si aucun guardrail ne se résout sur une requête ?
Que se passe-t-il si aucun guardrail ne se résout sur une requête ?
guardrail_id explicite sur la clé (s’il existe et est
activé) → sinon le guardrail is_default de l’espace de travail → sinon aucune
application. Un attachement explicite désactivé est l’interrupteur d’arrêt — il
ne retombe pas sur le défaut. Sans rien de résolu, la requête est identique
octet pour octet à un espace de travail qui n’a jamais activé la fonctionnalité.Une requête bloquée me coûte-t-elle du quota ?
Une requête bloquée me coûte-t-elle du quota ?
block renvoie 400 guardrail_blocked et ne coûte aucun quota —
un block à l’étape d’entrée se déclenche avant le décompte ; un block à l’étape de
sortie rembourse le quota pré-consommé. C’est aussi marqué skip-retry :
ré-exécuter le prompt identique ne fait que bloquer à nouveau.Quels types de règles et actions existent ?
Quels types de règles et actions existent ?
keyword, regex, pii, max_chars, external,
llm_judge, grounding. Actions : block (rejeter), mask (redacter et
transmettre), flag (journaliser seulement, aucun changement de trafic). Étapes :
input, output, both. Voir Guardrails pour chacun.Quelles entités PII sont détectées, et à quoi ressemble un mask ?
Quelles entités PII sont détectées, et à quoi ressemble un mask ?
email, phone, credit_card, ssn,
ip, iban, mac_address, jwt, aws_access_key, api_key_openai,
bitcoin_address, plus des types régionaux (jp_mynumber, kr_rrn,
cn_resident_id). Une action mask rend un tag typé —
jane@acme.com → [EMAIL], un SSN → [SSN]. Vous pouvez superposer jusqu’à
25 entités regex personnalisées par règle (avec une somme de contrôle Luhn
optionnelle) et override l’action par entité via entity_actions.Le masquage de sortie est-il appliqué sur les réponses streaming ?
Le masquage de sortie est-il appliqué sur les réponses streaming ?
Que coûte le juge LLM ?
Que coûte le juge LLM ?
keyword / regex / pii / max_chars ne font aucun appel de modèle
et ne facturent rien. Une règle llm_judge exécute une vérification sémantique à
travers un modèle d’espace de travail (bornée par judge_timeout_ms, fail-open
par défaut) et est facturée comme une sous-ligne de juge distincte. Une règle
grounding score la fidélité de la réponse contre les sources récupérées de la
requête (seuil par défaut 0.7) de la même manière.Puis-je voir ce qu'une règle a réellement matché ?
Puis-je voir ce qu'une règle a réellement matché ?
GET /api/guardrail/match, Member). Chaque ligne
enregistre le type de règle, l’action, l’étape, et une chaîne de détail — et la
sous-chaîne correspondante seulement si « Log raw content » est activé pour
ce guardrail (désactivé par défaut, la posture conservatrice côté vie privée). Block
erroné ? Marquez-le comme faux positif
(POST /api/guardrail/match/:id/mark-fp, Admin).Scannez-vous les dépendances pour les CVE connus ?
Scannez-vous les dépendances pour les CVE connus ?
block / mask / flag que vous rédigez directement. Connectez un
scanner sous Integrations pour le piloter.3. Firewall — actions d’agent
En quoi le firewall diffère-t-il des guardrails sur la résolution ?
En quoi le firewall diffère-t-il des guardrails sur la résolution ?
firewall_policy_id / guardrail_id) et partagent le fallback sur le défaut de
l’espace de travail. Voir
Guardrails vs Firewall.Quels sont les verdicts et les surfaces ?
Quels sont les verdicts et les surfaces ?
allow, audit, deny, sanitize, pending_approval,
cap_cost. default_verdict est allow / audit / deny (audit par défaut).
Surfaces : inbound (outils annoncés), response
(tool_calls émis par le modèle), mcp (un tools/call), egress
(host/IP/CIDR sortant). Le
glossaire des verdicts décode chacun.`sanitize` nettoie-t-il ce qu'un outil renvoie ?
`sanitize` nettoie-t-il ce qu'un outil renvoie ?
sanitize redacte les
sous-chaînes correspondantes uniquement des arguments de l’appel d’outil, jamais
le contenu qu’un outil renvoie. Sur la surface inbound (pas encore d’args au
moment de l’appel), sanitize escalade en un deny.Que font les niveaux d'autonomie ?
Que font les niveaux d'autonomie ?
autonomy_* éditables :•
balanced (démarrage recommandé) — audit par défaut, deny du shell
destructeur, PII Shield en audit-only (signale la PII).•
tight — default-deny, deny du shell destructeur, deny des outils fetch en
forme de SSRF, PII Shield + Secrets Blocker appliqués.•
permissive — observe seulement.L’annulation en un clic restaure l’état antérieur à partir du snapshot d’audit que l’application a écrit. C’est une étape unique — l’annulation est indisponible une fois qu’une application ultérieure (ou une édition manuelle de politique) a supplanté ce snapshot. Voir Modes d’application.
Le preset SSRF bloque-t-il les IP privées et les métadonnées cloud ?
Le preset SSRF bloque-t-il les IP privées et les métadonnées cloud ?
tight refuse les noms d’outils en
forme de fetch courants (http_fetch, web_search, fetch_url, request). Pour
refuser par destination — plages RFC-1918, IP de métadonnées cloud, CIDR spécifiques
— rédigez votre propre règle de refus host/CIDR sur la surface egress. Aucun preset
ne livre de règles CIDR pour vous. Voir
Egress & exfiltration de données.Comment déployer une politique sans casser le trafic ?
Comment déployer une politique sans casser le trafic ?
Comment fonctionne l'approbation humaine (HITL) ?
Comment fonctionne l'approbation humaine (HITL) ?
pending_approval renvoie 400 firewall_approval_pending avec un id
d’approbation. Un relecteur le résout depuis la console (Developer+) ou via un
callback webhook HMAC (POST /api/v1/firewall/approvals/:id/callback). L’agent
interroge GET /api/v1/firewall/approvals/:id et re-soumet l’appel d’origine avec un
en-tête à usage unique X-OrcaRouter-Firewall-Approval. Voir
Appels d’outils dangereux.Que cherche la détection d'anomalies ?
Que cherche la détection d'anomalies ?
retry_loop et novel_path (une transition d’outil à outil jamais
vue auparavant). Le flux est lisible par un Member ; mettez en sourdine une anomalie
jusqu’à 7 jours. Voir
Agence excessive.4. MCP, clés & accès à la passerelle
Comment les serveurs MCP sont-ils gouvernés ?
Comment les serveurs MCP sont-ils gouvernés ?
name, endpoint, auth_mode parmi
none/bearer/oauth/basic, identifiants chiffrés) et la passerelle MCP évalue
chaque tools/call sur la surface mcp avant le dispatch. La santé est suivie
(ok/degraded/down) ; sondez-la avec
POST /api/workspace/firewall/mcp_servers/:id/probe. Une sonde établit aussi une
baseline du schéma d’outils annoncé du serveur — une dérive ultérieure bascule son
statut de schéma de verified à changed (le signal « rug-pull »), et vous
re-baselinez (approuvez) ou mettez le serveur en quarantine. Donc la gouvernance
est l’évaluation par appel plus le suivi d’intégrité de schéma et les bandes de
risque de skill. Voir Firewall MCP et
Empoisonnement d’outils MCP.Qu'arrive-t-il à un skill risqué ou auto-détecté ?
Qu'arrive-t-il à un skill risqué ou auto-détecté ?
allow / quarantine / block. Un skill en
quarantaine est mis en attente d’approbation ; les skills auto-détectés restent en
quarantaine jusqu’à ce qu’un humain les revoie. Le mode chevauche par-dessus le
verdict de la règle.Quels champs de clé verrouillent un agent ?
Quels champs de clé verrouillent un agent ?
model_limits (+ model_limits_enabled), allow_ips,
credit_limit_usd (0 = illimité), expired_time (-1 = jamais),
environment, guardrail_id, firewall_policy_id, et
is_firewall_gateway. Combinez-les pour une agence minimale — voir
Portée, clés & politiques.
Les clés sont masquées à l’affichage.Pourquoi est-ce que j'obtiens un 403 sur `/api/v1/firewall/*` ?
Pourquoi est-ce que j'obtiens un 403 sur `/api/v1/firewall/*` ?
POST /evaluate, POST /evaluate_plan,
ANY /mcp) requièrent une clé avec is_firewall_gateway=true — un token dédié
scopé à la passerelle firewall, pas votre clé de relais sk-orca-…. Frapper une
telle clé et lire son texte en clair est Admin+.Quelle est la différence entre configurer et appeler ?
Quelle est la différence entre configurer et appeler ?
/v1/* utilise une clé sk-orca-… ;
seuls les hooks de passerelle /api/v1/firewall/* utilisent le token scopé à la
passerelle firewall.5. Conformité, résidence & données
Quels référentiels sont couverts ?
Quels référentiels sont couverts ?
/api/compliance/*.Pourquoi l'installation/le rapport est-il gardé ?
Pourquoi l'installation/le rapport est-il gardé ?
POST /api/compliance/packs/:key/install) matérialise de vrais guardrails +
politiques firewall que vous pouvez ensuite éditer.Les rapports de conformité sont-ils vérifiables ?
Les rapports de conformité sont-ils vérifiables ?
GET /api/public/compliance/pubkey), vérifiez un
rapport (POST /api/public/compliance/verify), ou remettez à un auditeur un lien
de partage (GET /api/public/compliance/share/:token). Les exports sont
CSV / JSON / PDF.Que pin réellement la résidence des données ?
Que pin réellement la résidence des données ?
us, eu,
uk, ap, cn, global), réglable via PUT /api/compliance/residency
(Admin) ; une lecture cross-région est retenue. Ce n’est pas un géo-épinglage de
vos données d’inférence. Voir
Responsabilité partagée.Combien de temps les logs sont-ils conservés, et comment faire effacer des données ?
Combien de temps les logs sont-ils conservés, et comment faire effacer des données ?

audit, préfixant la raison[shadow] would …. Surveillez les vues Events et Runs, puis désactivez le shadow pour appliquer. Le mode observe au niveau de l’espace de travail (firewall_observe_mode) est le cadran de découverte complémentaire — il journalise les appels non couverts comme des lacunes dans Discovered Tools.