Auto-Router - OrcaRouter

orcarouter/auto ist ein benannter Router, den wir für jedes Konto bei der Registrierung erstellen. Er leitet jede Anfrage an das günstigste Live-Chat-Modell, auf das dein Konto Zugriff hat, frisch pro Anfrage gewählt.

Verwendung

response = client.chat.completions.create(
    model="orcarouter/auto",
    messages=[{"role": "user", "content": "..."}],
)

Keine weitere Einrichtung erforderlich — der Router existiert in dem Moment, in dem dein Konto erstellt wird.

Standardverhalten

Die Seed-Konfiguration:

Muster: leer — passt zu jedem Chat-Modell, auf das dein Konto Zugriff hat. Neue Modelle, die online gehen, werden automatisch zu Kandidaten.
Strategie: cheapest — wählt das Modell mit dem niedrigsten Preis pro Token unter den Live-Kandidaten.
Standardmodell: keines. Wenn das Muster zu keinen verfügbaren Modellen auflöst, schlägt die Anfrage mit einem klaren Fehler fehl. Du kannst im Dashboard einen Standard setzen, wenn du ein Safety Net möchtest.

Du kannst deinen Auto-Router im Dashboard unter Routing sehen und bearbeiten. Du kannst das Muster verengen (z. B. auf openai/* beschränken), die Strategie wechseln, ein default_model setzen oder den Router ganz löschen — wie jeden benannten Router.

Strategien wechseln

Das Dashboard stellt vier Strategiekarten bereit. Cheapest ist die oben angegebene Seed-Standard; wähle eine andere, um zu ändern, wie orcarouter/auto Auswahlen auflöst:

Karte	Backend-Enum	Was sie macht
Cheapest	`cheapest`	Niedrigster Preis pro Token unter Live-Kandidaten. Der Seed-Standard.
Quality	`quality`	Höchste Qualitätsbewertung unter Live-Kandidaten, unabhängig vom Preis.
Balanced	`balanced`	Wählt eine kostengünstige Option, die eine Qualitätsschwelle erreicht; fällt auf die qualitativ hochwertigste Option zurück, wenn nichts die Schwelle erreicht. Standard für neue Router, die du selbst erstellst.
Adaptive	`linucb` / `gated_adaptive`	LinUCB-Kontext-Bandit pro Router, der aus deinem echten Verkehr lernt, um Qualität, Kosten, Latenz und Zuverlässigkeit pro Anfrage zu gewichten. Zwei Submodes (Standard / Gated) — siehe Benannte Router.

Adaptive benötigt eine kurze Aufwärmphase pro Modell, bevor es beginnt, Auswahlen zu steuern. Während der Aufwärmphase verhält es sich wie Balanced — das ist erwartet, kein Bug.

Wann du Auto-Router gegenüber expliziten Modellnamen bevorzugen solltest

Du möchtest dich nicht auf ein bestimmtes Modell festlegen; du möchtest das günstigste Live-Chat-Modell bei jeder Anfrage.
Du prototypisierst und möchtest dich nicht darum kümmern, welcher Anbieter oben ist.
Du möchtest, dass das Routing von OrcaRouter “einfach funktioniert”, ohne darüber nachzudenken.

Wann du explizite Modellnamen bevorzugen solltest

Du benötigst deterministische Ausgabe — verschiedene Modelle zu verschiedenen Zeiten zu wählen, wird Generierungsstil und Qualität ändern.
Du verwendest Features, die spezifisch für ein Modell sind (z. B. Claudes cache_control oder die native Bildgenerierung eines Modells).
Du möchtest vorhersagbare Kosten pro Anfrage.

Sehen, was Auto-Router gewählt hat

Prüfe den X-Orca-Resolved-Model-Antwort-Header. Siehe Antwort-Header.

res = client.chat.completions.with_raw_response.create(
    model="orcarouter/auto", ...
)
actual_model = res.headers.get("X-Orca-Resolved-Model")
# z. B. "openai/gpt-4o-mini"

​Verwendung

​Standardverhalten

​Strategien wechseln

​Wann du Auto-Router gegenüber expliziten Modellnamen bevorzugen solltest

​Wann du explizite Modellnamen bevorzugen solltest

​Sehen, was Auto-Router gewählt hat