オートルーター

orcarouter/auto は登録時にすべてのアカウントに対して作成される名前付きルーターです。各リクエストを、アカウントがアクセス可能な最安のライブチャットモデルにルーティングします。選択はリクエストごとに新しく行われます。

使い方

response = client.chat.completions.create(
    model="orcarouter/auto",
    messages=[{"role": "user", "content": "..."}],
)

その他のセットアップは不要 —— アカウントが作成された瞬間からこのルーターは存在します。

既定の挙動

シード設定:

パターン: 空 —— アカウントがアクセス可能なすべてのチャットモデルに一致。新しいモデルがオンラインになれば自動的に候補に追加されます。
戦略: cheapest —— ライブ候補の中でトークン単価が最も低いモデルを選びます。
デフォルトモデル: なし。パターンが利用可能なモデルなしに解決された場合、リクエストは明確なエラーで失敗します。セーフティネットが必要ならダッシュボードでデフォルトを設定できます。

ダッシュボードの Routing でオートルーターの確認・編集ができます。パターンを絞る (例: openai/* に制限)、戦略を切り替える、 default_model を設定する、ルーターを完全に削除する ——どんな名前付きルーターと同じです。

戦略の切り替え

ダッシュボードは 4 つの戦略カードを公開します。Cheapest は上記のシードデフォルト; 他を選べば orcarouter/auto の解決方法が変わります:

カード	バックエンド列挙	動作
Cheapest	`cheapest`	ライブ候補の中でトークン単価が最も低いモデル。シードデフォルト。
Quality	`quality`	ライブ候補の中で品質スコアが最も高いモデル。価格は問わない。
Balanced	`balanced`	品質ベースラインを満たす低コストの選択肢を選び、満たすものがなければ最高品質の選択肢にフォールバック。自分で作る新規ルーターのデフォルト。
Adaptive	`linucb` / `gated_adaptive`	ルーター単位の LinUCB コンテキストバンディット。本番トラフィックから学習し、リクエストごとに品質・コスト・レイテンシ・信頼性を重み付け。2 つのサブモード (Standard / Gated) —— 名前付きルーターを参照。

Adaptive は選択を誘導し始める前にモデル別の短いウォームアップが必要です。ウォームアップ中は Balanced のように振る舞います ——これは期待される挙動でバグではありません。

明示的なモデル名より Auto Router を使うべきとき

特定のモデルに固定したくなく、毎リクエストで最安のライブチャットモデルがほしい。
プロトタイピング中で、どのプロバイダがオンラインかを気にしたくない。
OrcaRouter のルーティングを考えずに “ちゃんと動いて” ほしい。

明示的なモデル名を使うべきとき

決定論的な出力が必要 ——時間ごとに異なるモデルを選ぶと生成スタイルと品質が変わります。
特定のモデル固有の機能 (Claude の cache_control、モデルのネイティブ画像生成など) を使っている。
予測可能なリクエスト別コストが欲しい。

オートルーターが選んだものを確認する

X-Orca-Resolved-Model レスポンスヘッダを確認してください。レスポンスヘッダを参照。

res = client.chat.completions.with_raw_response.create(
    model="orcarouter/auto", ...
)
actual_model = res.headers.get("X-Orca-Resolved-Model")
# 例: "openai/gpt-4o-mini"

​使い方

​既定の挙動

​戦略の切り替え

​明示的なモデル名より Auto Router を使うべきとき

​明示的なモデル名を使うべきとき

​オートルーターが選んだものを確認する

使い方

既定の挙動

戦略の切り替え

明示的なモデル名より Auto Router を使うべきとき

明示的なモデル名を使うべきとき

オートルーターが選んだものを確認する