Cómo usar
Pon una lista ordenada de IDs de modelo enextra_body.models y
configura extra_body.route a "fallback". El campo model
principal sigue importando — es el primer intento — pero OrcaRouter
lo ignora a favor de la cadena si la cadena está presente.
Reglas
- Máximo 5 modelos en la cadena. Los extras se truncan en silencio.
- Recomendado: todos los modelos en una cadena deberían ser del
mismo tipo de endpoint (todos chat, o todos imagen). Mezclar un
modelo chat con uno de imagen no estrellará la pasarela, pero el
respaldo que sirve realmente la solicitud necesita coincidir con el
endpoint que llamaste (p. ej. si llamas a
/v1/chat/completions, solo los modelos chat en la cadena son utilizables). - Comportamiento del respaldo:
- Las entradas
orcarouter/{name}no resolubles (mal nombre, enrutador deshabilitado) se omiten en silencio. - Los modelos a los que la clave llamante no puede acceder (desajuste de lista permitida) se omiten en silencio.
- Cuando el modelo principal falla en el upstream (5xx / 429 / error de red), se prueba la siguiente entrada de la cadena.
- La solicitud falla solo cuando cada entrada de la cadena se ha agotado.
- Advertencia de streaming: una vez que se haya enviado cualquier byte de la respuesta al cliente, el respaldo ya no puede activarse — si el upstream se cae a mitad del flujo, el cliente ve un flujo truncado, no un reintento transparente en el siguiente modelo.
- Las entradas
- La facturación ocurre para el modelo que realmente sirvió la respuesta, a su tasa — no la del principal.
extra_body.routedebe ser exactamente"fallback"para que la cadena se active. Cualquier otro valor (o ausencia) → la cadena se ignora y solo se usa elmodelde nivel superior.
Cómo saber qué modelo sirvió la respuesta
Consulta las cabeceras de respuestaX-Orca-Fallback-Level y
X-Orca-Fallback-Model. Ver
Cabeceras de respuesta.
Cuándo no usar esto
Si quieres que OrcaRouter elija automáticamente el modelo disponible más barato sin escribir una cadena, usaorcarouter/auto en su lugar. Las cadenas
de respaldo son para casos donde quieres control explícito sobre el
orden.