안녕하세요.
현재 Clova Studio의 HCX-005 모델을 OpenAI API 호환 방식으로 사용하고 있으며, OpenAI 공식 라이브러리(SDK)의 client.chat.completions.create() 메서드를 통해 요청을 보내고 있습니다.
응답에서는 .usage.prompt_tokens, .usage.completion_tokens 항목을 통해 토큰 사용량을 확인하고 있습니다.
이미지를 포함한 요청의 경우, 동일한 요청을 GPT-4 멀티모달 모델에 보냈을 때와 비교해 보면 HCX-005 모델의 입력 토큰 수(prompt_tokens)가 현저히 낮게 집계되는 현상이 있습니다.
이미지는 텍스트와 함께 아래와 같은 구조로 전달하고 있습니다.
{ "type": "text", ... },
{ "type": "image_url", "image_url": { "url": "https://..." } }
// 또는 base64 형식
이미지 내용은 응답 결과에 정상적으로 반영되고 있어 이미지 입력은 제대로 처리된 것으로 보이지만, 토큰 사용량(prompt_tokens)에는 텍스트 입력만 포함되는 것처럼 보입니다.
이와 관련하여 아래 두 가지 사항을 문의 드립니다.
1. 현재 이미지 입력이 .usage 필드에 포함되지 않는 것이 정상 동작인지
2. .usage 필드를 통해 토큰 사용량을 확인하는 방식이 올바른 사용법인지
감사합니다.