Saltar al contenido principal
OrcaRouter limita la tasa a nivel de espacio de trabajo, no por clave API. Todas las claves pertenecientes al mismo espacio de trabajo se nutren del mismo cubo. Cuando se supera el límite obtienes una respuesta HTTP 429 Too Many Requests con una cabecera Retry-After.

Por qué con alcance de espacio de trabajo

Los espacios de trabajo son cómo OrcaRouter agrupa las claves, miembros y facturación que pertenecen a un solo equipo o individuo. Los límites compartidos dentro de un espacio de trabajo hacen el tráfico predecible a medida que tu equipo crece: añadir una nueva clave (o un nuevo miembro) no multiplica tu presupuesto compartido. Si necesitas un techo mayor, actualiza el plan del espacio de trabajo. OrcaRouter no expone límites de tasa por modelo a los llamantes — la pasarela se comporta como un solo proveedor lógico desde la vista de tu aplicación, consistente con opacidad del proveedor. La limitación interna hacia los proveedores upstream ocurre transparentemente y no forma parte del contrato público.

Respuesta

Una solicitud limitada por tasa siempre devuelve:
HTTP/1.1 429 Too Many Requests
Retry-After: <seconds>
Algunos caminos de límite de tasa también incluyen un cuerpo JSON explicando el límite que se alcanzó; otros (el cubo de espacio de trabajo del camino más rápido) devuelven solo el código de estado y cabeceras. No dependas de la forma del cuerpo — comprueba el código de estado 429 y lee Retry-After. Cuando hay un cuerpo presente sigue la envoltura compatible con OpenAI con error.type configurado a orcarouter_api_error. El error.message puede estar localizado (actualmente chino) — consulta Errores para la estructura de envoltura. Retry-After está en segundos. Es la duración de la ventana de límite de tasa (conservador — es seguro esperar exactamente esa cantidad); la siguiente ventana tendrá presupuesto completo. Reintentar inmediatamente sin esperar fallará de nuevo.

Comportamiento de cliente recomendado

  1. En 429, lee Retry-After.
  2. Espera esa cantidad de segundos.
  3. Reintenta la misma solicitud.
  4. Si ocurre un segundo 429, aumenta la espera por 2× (retroceso exponencial) hasta 60 segundos.
  5. Si ves 429 repetidamente, considera dividir el tráfico entre múltiples modelos con extra_body.models — ver Respaldo de modelos.
Los SDK de Python y TypeScript de OpenAI manejan Retry-After automáticamente por defecto. No necesitas código personalizado a menos que hayas deshabilitado los reintentos.

Reactivo, no predictivo

OrcaRouter no devuelve las cabeceras X-RateLimit-Remaining / X-RateLimit-Reset, así que no puedes comprobar preventivamente cuánto presupuesto queda. Trata 429 como la señal — retírate cuando la veas, luego reanuda.