effort를 설정하는 두 가지 방법
1. reasoning_effort 필드 (OpenAI 형태)
Chat Completions 요청에 전달합니다. 값: low, medium, high
(일부 모델에서는 minimal / max).
- OpenAI o 시리즈와 gpt-5-pro 패밀리: 네이티브
reasoning_effort로 전달. - Anthropic Claude:
thinking: {type: "enabled", budget_tokens: ...}로 매핑, 예산은low→1280,medium→2048,high→4096.claude-opus-4.6의 경우 특별히thinking: {type: "adaptive"}output_config.effort로 매핑.
- Google Gemini:
generationConfig.thinkingConfig로 매핑,includeThoughts: true와 effort에서 설정된 thinking 레벨 / 예산 사용. - xAI Grok: 네이티브로
reasoning_effort를 받는 grok-3-mini 패밀리로 전달. - DeepSeek reasoner: 설계상 추론 모델;
reasoning_effort는 no-op.
2. -{effort} 모델 이름 접미사
effort를 모델 이름에 굳혀 넣을 수도 있습니다. 인식되는 접미사:
-minimal / -low / -medium / -high / -max.
이 배포의 추론 모델 패밀리
OpenAI:openai/o1,o1-proopenai/o3,o3-mini,o3-mini-highopenai/o4-mini,o4-mini-highopenai/gpt-5-pro와gpt-5.x-pro패밀리
anthropic/claude-sonnet-4.6,claude-opus-4.6,claude-opus-4.7등 —reasoning_effort또는-{effort}접미사와 함께 사용.
google/gemini-2.5-pro,gemini-2.5-flash,gemini-3-pro-preview등 —reasoning_effort또는-{effort}접미사와 함께 사용.
deepseek/deepseek-reasoner— 설계상 추론 모델.
grok/grok-4-fast-reasoning,grok-4-1-fast-reasoninggrok/grok-3-mini와reasoning_effort: low또는high조합
/v1/models를 호출하세요.
응답의 추론 추적
OpenAI Responses API의 경우 모델의 숨겨진 추론이 응답 출력에reasoning 항목으로 반환됩니다. 네이티브 /v1/messages를 통한
Anthropic의 경우, thinking이 thinking 타입의 content_block
엔트리로 도착합니다. 게이트웨이는 업스트림이 제공할 때
reasoning_content 필드도 chat-completion 응답에 표면화합니다.
투명성을 위해 추적을 표시하거나 프로덕션에서 무시할 수 있습니다.
청구
추론 토큰은 응답 usage 객체의completion_tokens_details.reasoning_tokens에서 별도로 추적됩니다
— 운영 / 청구 및 사용량 참조.