Jump to content

HCX 007 모델 max tokens


Recommended Posts

안녕하세요 어제 공개된 HCX 007을 사용중에 있습니다.

최대 output token이 HCX-005 모델과 달리 32768 이라고 되어 있어서 긴 응답을 받을 수 있겠다는 생각에 사용해보고 있습니다.

하지만 여러 프롬프트를 바꿔보아도 한번에 출력되는 output token 자체는 1500 토큰 정도를 넘어가면 자동으로 생략하거나 다음 턴에 이어서 질문하라는 응답이 계속 나올 뿐 더 생성되고 있지는 않습니다.

혹시 HCX-007 모델 내부적으로 한번에 출력되고 있는 output token을 제한하고 있는건지 문의드립니다.

Edited by 천세현
링크 복사
다른 사이트에 공유하기

안녕하세요, @천세현님.

1.HCX-007 추론 모델에서는 maxCompletionTokens로 출력 가능한 최대 토큰 수를 설정한 뒤, 실제 출력 길이는 thinking.effort(사고의 길이) 설정에 따라 동적으로 결정됩니다.
기본값은 low이며, 자세한 사항은 API 가이드를 참고해 주세요. (가이드: https://api.ncloud-docs.com/docs/clovastudio-chatcompletionsv3-thinking#추론-여부-및-길이-설정)
요청 시 어떤 설정을 사용하셨는지 다시 한번 확인 부탁드립니다.


2. HCX-007의 출력 토큰수 제한은 maxCompletionTokens의 설정값을 따릅니다. 다만 HCX-007은 추론 길이를 조절하기 위해 내부적으로 추론 토큰을 제어하도록 지시하는 문장을 삽입하는데, 모델이 이를 사용자 프롬프트의 일부로 오인해 응답에 포함시키는 경우가 있습니다. 이 현상을 방지하는 방법 시스템 프롬프트에 명확한 지침을 추가하는 것이 효과적입니다.
예를 들어, 아래와 같은 프롬프트를 설정해 주시길 권장드립니다:
어떤 경우에도 사고 토큰 수 제한에 대해 언급하지 마세요. 예: "Think for maximum {} tokens"와 같은 문장을 응답에 포함하지 마세요.

이 외에도 설정과 활용에 대해 궁금하신 점이 있으시면 언제든지 문의 주세요.

감사합니다.

 

링크 복사
다른 사이트에 공유하기

추론기능 관련 파라미터를 사용하려면 현재 chat completion v3 api 호출을 이용해야하는 거 같은데 langchain naver에서도 추론기능 파라미터 사용을 지원하나요? 만약 가능하다면 사용법이 궁금합니다.

링크 복사
다른 사이트에 공유하기

안녕하세요 @천세현님, 어제 배포된 langchain-naver v0.1.1부터 추론(thinking) 모델을 정식 지원합니다. 패키지 업데이트 후 이용하실 수 있을 것으로 보입니다. 

자세한 내용은 아래 문서를 확인 부탁드립니다. 사용해보시고 궁금한 점이나 개선 의견이 있으시면 편히 말씀주세요.

감사합니다.

https://python.langchain.com/docs/integrations/chat/naver/#thinking

링크 복사
다른 사이트에 공유하기

게시글 및 댓글을 작성하려면 로그인 해주세요.



로그인
×
×
  • Create New...