메인 콘텐츠로 건너뛰기
추론 모델은 최종 답변을 내기 전에 숨겨진 “사고” 패스에 추가 계산을 씁니다. 더 느리고 비싸지만 더 어려운 문제를 해결합니다. OrcaRouter는 모든 프로바이더에서 추론 effort를 제어하기 위한 통합 구문을 제공합니다 — 클라이언트에 맞는 형태를 선택하세요.

effort를 설정하는 두 가지 방법

1. reasoning_effort 필드 (OpenAI 형태)

Chat Completions 요청에 전달합니다. 값: low, medium, high (일부 모델에서는 minimal / max).
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6",
    messages=[{"role": "user", "content": "Hard math problem..."}],
    reasoning_effort="high",
)
OrcaRouter는 이 필드를 업스트림의 네이티브 형태로 변환합니다:
  • OpenAI o 시리즈와 gpt-5-pro 패밀리: 네이티브 reasoning_effort 로 전달.
  • Anthropic Claude: thinking: {type: "enabled", budget_tokens: ...}로 매핑, 예산은 low→1280, medium→2048, high→4096. claude-opus-4.6의 경우 특별히 thinking: {type: "adaptive"}
    • output_config.effort로 매핑.
  • Google Gemini: generationConfig.thinkingConfig로 매핑, includeThoughts: true와 effort에서 설정된 thinking 레벨 / 예산 사용.
  • xAI Grok: 네이티브로 reasoning_effort를 받는 grok-3-mini 패밀리로 전달.
  • DeepSeek reasoner: 설계상 추론 모델; reasoning_effort는 no-op.

2. -{effort} 모델 이름 접미사

effort를 모델 이름에 굳혀 넣을 수도 있습니다. 인식되는 접미사: -minimal / -low / -medium / -high / -max.
# model="anthropic/claude-opus-4.6" + reasoning_effort="high"와 동등
resp = client.chat.completions.create(
    model="anthropic/claude-opus-4.6-high",
    messages=[...],
)
프로바이더 간에 동일하게 작동합니다 — 코드에서 더 읽기 좋은 줄을 선택하세요.

이 배포의 추론 모델 패밀리

OpenAI:
  • openai/o1, o1-pro
  • openai/o3, o3-mini, o3-mini-high
  • openai/o4-mini, o4-mini-high
  • openai/gpt-5-progpt-5.x-pro 패밀리
Anthropic (Claude 4 / Opus의 extended thinking):
  • anthropic/claude-sonnet-4.6, claude-opus-4.6, claude-opus-4.7 등 — reasoning_effort 또는 -{effort} 접미사와 함께 사용.
Google Gemini (Gemini 2.5 / 3.x의 extended thinking):
  • google/gemini-2.5-pro, gemini-2.5-flash, gemini-3-pro-preview 등 — reasoning_effort 또는 -{effort} 접미사와 함께 사용.
DeepSeek:
  • deepseek/deepseek-reasoner — 설계상 추론 모델.
xAI Grok:
  • grok/grok-4-fast-reasoning, grok-4-1-fast-reasoning
  • grok/grok-3-minireasoning_effort: low 또는 high 조합
실시간 카탈로그는 /v1/models를 호출하세요.

응답의 추론 추적

OpenAI Responses API의 경우 모델의 숨겨진 추론이 응답 출력에 reasoning 항목으로 반환됩니다. 네이티브 /v1/messages를 통한 Anthropic의 경우, thinking이 thinking 타입의 content_block 엔트리로 도착합니다. 게이트웨이는 업스트림이 제공할 때 reasoning_content 필드도 chat-completion 응답에 표면화합니다. 투명성을 위해 추적을 표시하거나 프로덕션에서 무시할 수 있습니다.

청구

추론 토큰은 응답 usage 객체의 completion_tokens_details.reasoning_tokens에서 별도로 추적됩니다 — 운영 / 청구 및 사용량 참조.