Jump to content

intube

Members
  • 게시글

    2
  • 첫 방문

  • 최근 방문

Everything posted by intube

  1. 안녕하세요. 현재 Clova Studio의 HCX-005 모델을 OpenAI API 호환 방식으로 사용하고 있으며, OpenAI 공식 라이브러리(SDK)의 client.chat.completions.create() 메서드를 통해 요청을 보내고 있습니다. 응답에서는 .usage.prompt_tokens, .usage.completion_tokens 항목을 통해 토큰 사용량을 확인하고 있습니다. 이미지를 포함한 요청의 경우, 동일한 요청을 GPT-4 멀티모달 모델에 보냈을 때와 비교해 보면 HCX-005 모델의 입력 토큰 수(prompt_tokens)가 현저히 낮게 집계되는 현상이 있습니다. 이미지는 텍스트와 함께 아래와 같은 구조로 전달하고 있습니다. { "type": "text", ... }, { "type": "image_url", "image_url": { "url": "https://..." } } // 또는 base64 형식 이미지 내용은 응답 결과에 정상적으로 반영되고 있어 이미지 입력은 제대로 처리된 것으로 보이지만, 토큰 사용량(prompt_tokens)에는 텍스트 입력만 포함되는 것처럼 보입니다. 이와 관련하여 아래 두 가지 사항을 문의 드립니다. 1. 현재 이미지 입력이 .usage 필드에 포함되지 않는 것이 정상 동작인지 2. .usage 필드를 통해 토큰 사용량을 확인하는 방식이 올바른 사용법인지 감사합니다.
  2. 안녕하세요. 텍스트와 이미지를 함께 처리할 수 있는 멀티모달 모델 관련하여 몇 가지 문의드리고자 합니다. 현재는 Clova Studio를 구독 중입니다. 1. NAVER HyperCLOVA Vision 모델이 이미지 입력을 지원하는 것으로 알고 있는데요, 현재 해당 모델을 외부에서 사용할 수 있는 공개 API가 있는지 궁금합니다. 혹시 사용할 수 있는 방법이 있다면 안내 부탁 드리겠습니다. 2. HCX-003 및 HCX-DASH-001 모델은 텍스트 전용 모델로 알고 있습니다. 혹시 이 모델들에서도 이미지 분석이 가능한지, 또는 멀티모달 입력을 처리할 수 있는 기능이 있는지도 함께 확인 부탁드립니다. 3. 이 외에 이미지 입력을 지원하는 멀티모달 모델이 있다면, 현재 API를 통해 사용 가능한지 여부도 알려주시면 감사하겠습니다. 현재 텍스트와 이미지를 함께 분석할 수 있는 멀티모달 API가 필요한 상황이라, 정확한 지원 여부 및 사용 가능 경로에 대해 확인해주시면 큰 도움이 될 것 같습니다. 감사합니다.
×
×
  • Create New...