HCX 007 모델 max tokens

천세현 · August 1

안녕하세요 어제 공개된 HCX 007을 사용중에 있습니다.

최대 output token이 HCX-005 모델과 달리 32768 이라고 되어 있어서 긴 응답을 받을 수 있겠다는 생각에 사용해보고 있습니다.

하지만 여러 프롬프트를 바꿔보아도 한번에 출력되는 output token 자체는 1500 토큰 정도를 넘어가면 자동으로 생략하거나 다음 턴에 이어서 질문하라는 응답이 계속 나올 뿐 더 생성되고 있지는 않습니다.

혹시 HCX-007 모델 내부적으로 한번에 출력되고 있는 output token을 제한하고 있는건지 문의드립니다.

Edited August 1 by 천세현

천세현 · August 1

혹시 제한이 있나 해서 아래처럼 물어봤는데 ２０４８토큰 제한이 있다고 하네요¿

CLOVA Studio 운영자 · August 4

안녕하세요, @천세현님.

1.HCX-007 추론 모델에서는 maxCompletionTokens로 출력 가능한 최대 토큰 수를 설정한 뒤, 실제 출력 길이는 thinking.effort(사고의 길이) 설정에 따라 동적으로 결정됩니다.
기본값은 low이며, 자세한 사항은 API 가이드를 참고해 주세요. (가이드: https://api.ncloud-docs.com/docs/clovastudio-chatcompletionsv3-thinking#추론-여부-및-길이-설정)
요청 시 어떤 설정을 사용하셨는지 다시 한번 확인 부탁드립니다.

2. HCX-007의 출력 토큰수 제한은 maxCompletionTokens의 설정값을 따릅니다. 다만 HCX-007은 추론 길이를 조절하기 위해 내부적으로 추론 토큰을 제어하도록 지시하는 문장을 삽입하는데, 모델이 이를 사용자 프롬프트의 일부로 오인해 응답에 포함시키는 경우가 있습니다. 이 현상을 방지하는 방법 시스템 프롬프트에 명확한 지침을 추가하는 것이 효과적입니다.
예를 들어, 아래와 같은 프롬프트를 설정해 주시길 권장드립니다:
어떤 경우에도 사고 토큰 수 제한에 대해 언급하지 마세요. 예: "Think for maximum {} tokens"와 같은 문장을 응답에 포함하지 마세요.

이 외에도 설정과 활용에 대해 궁금하신 점이 있으시면 언제든지 문의 주세요.

감사합니다.

천세현 · August 6

추론기능 관련 파라미터를 사용하려면 현재 chat completion v3 api 호출을 이용해야하는 거 같은데 langchain naver에서도 추론기능 파라미터 사용을 지원하나요? 만약 가능하다면 사용법이 궁금합니다.

CLOVA Studio 운영자9 · August 7

안녕하세요 @천세현님, 어제 배포된 langchain-naver v0.1.1부터 추론(thinking) 모델을 정식 지원합니다. 패키지 업데이트 후 이용하실 수 있을 것으로 보입니다.

자세한 내용은 아래 문서를 확인 부탁드립니다. 사용해보시고 궁금한 점이나 개선 의견이 있으시면 편히 말씀주세요.

감사합니다.

https://python.langchain.com/docs/integrations/chat/naver/#thinking

HCX 007 모델 max tokens

Recommended Posts

천세현

링크 복사

다른 사이트에 공유하기

천세현

링크 복사

다른 사이트에 공유하기

CLOVA Studio 운영자

링크 복사

다른 사이트에 공유하기

천세현

링크 복사

다른 사이트에 공유하기

CLOVA Studio 운영자9

링크 복사

다른 사이트에 공유하기

게시글 및 댓글을 작성하려면 로그인 해주세요.

NAVER Cloud

Home