Jump to content

임베딩, 토큰계산기 API 관련하여 문의드립니다.


copyrum

Recommended Posts

안녕하세요. 

HCX 이용 중 https://clovastudio.ncloud.com/explorer/tools 에서 제공하는 툴들에 대해 문의가 있어 글을 남깁니다.

1. https://clovastudio.ncloud.com/explorer/tools/embedding 임베딩 API에서 제공하는 모델이 clir-emb-dolphin, clir-sts-dolphin 두 종류가 있는데 어느 것이 HCX-003에 사용되는 임베딩 모델인가요? 요금은 둘다 토큰 당 0.0001원 인가요?

2. 혹시 다른 임베딩 알고리즘을 활용해 인코딩/디코딩 진행하고 HCX에 질의하는 방법이 가능할까요??

3. https://clovastudio.ncloud.com/explorer/tools/tokenizer 토큰 계산기의 경우 HCX와 일반 두 종류가 있는데 어떤 차이가 있는 것인지, 요금은 어떻게 부과되는지 궁금합니다.
HCX 토큰계산기의 예제인 

 

"status": { "code": "20000", "message": "OK" }, "result": { messages": [ { "role": "system", "content": "- HyperCLOVA X 는 네이버의 하이퍼스케일 AI 입니다.", "count": 15 }, { "role": "user", "content": "안녕하세요, 이름이 무엇입니까?", "count": 10 }, { "role": "assistant", "content": "저는 HyperCLOVA X 입니다.", "count": 9 } ] } } 

에서 content를 합친

"- HyperCLOVA X 는 네이버의 하이퍼스케일 AI 입니다. 안녕하세요, 이름이 무엇입니까? 저는 HyperCLOVA X 입니다."

이 문자열을 일반 토큰 계산기에 입력 시 동일한가요? 

링크 복사
다른 사이트에 공유하기

추가로 HCX에 질의시 최대토큰수가 넘으면 에러가 나는지 , 아니면 최대토큰수까지 잘려서 입력되는지도 궁금합니다. 이런 경우 세션을 유지하여 다음 질의에 활용할 수도 있을까요?

링크 복사
다른 사이트에 공유하기

안녕하세요 @copyrum님, 

문의주신 사항에 대해 아래와 같이 답변드립니다.

1. 익스플로러에서 제공중인 두 종류의 임베딩 모델은 모두 HCX-003과 별개의 독립적인 모델입니다. 요금은 동일합니다.

2. 별도 임베딩 모델 및 인코딩/디코딩 결과를 저장할 벡터 DB를 확보하신 것으로 이해했습니다. 별도로 구현한 내용을 연계하여 HCX 모델의 프롬프트에 입력하는 등의 형태로 활용하실 수 있을 것으로 보입니다. 

3. 토큰 계산기는 별도의 요금을 부과하지 않습니다. 토큰 계산기는 클로바 스튜디오 내 각기 다른 모델의 토크나이저를 기반으로 만들어졌으므로 질문주신 사례에서 동일한 결과를 보장하기 어렵습니다. HCX는 HCX 모델, 일반 토큰 계산기는 LK-B, LK-D2 등의 모델에 적용된 토크나이저를 통해 토큰 수를 계산하여 출력합니다.

4. HCX 모델 이용 시 입력 토큰 수가 입력 가능 최대 토큰 수를 넘을 경우 에러가 발생합니다. 출력을 함께 고려하여 세션을 유지하고자 할 경우 익스플로러의 '슬라이딩 윈도우' 도구를 이용하실 수 있습니다. 해당 API에 대한 가이드 문서를 참고해주세요. (https://guide.ncloud-docs.com/docs/clovastudio-explorer03)

감사합니다. 

  • Thanks 1
링크 복사
다른 사이트에 공유하기

@CLOVA Studio 운영자9

친절한 답변 감사드립니다. 

추가로 질문하고싶은 것들이 있어 이곳에 남기겠습니다.


1. API 응답 코드 

408 40800 Request timeout 요청 처리 시간 초과

의 경우 타임아웃이 일어나는 시간이 몇 초인가요? 해당 시간은 변경이 가능한가요? 그리고 stream으로 답변을 요청한 경우 각 답변 사이 간격이 길어질 경우에도 타임아웃이 발생할까요?  

2. stream 설정

헤더에 'Accept': 'text/event-stream' 를 추가하여 stream으로 답변을 받을 수 있는 것으로 이해했는데 그렇다면 python 기본 제공 코드 중

```

with requests.post(self._host + '/testapp/v1/chat-completions/HCX-003',

                           headers=headers, json=completion_request, stream=True) as r:

```

에서 stream=True 옵션은 어떤 기능을 수행하는 옵션인가요?

 

3. API 중 chat-completions은 HCX모델을 사용할 때, completions는 그 외 모델을 사용할 때 이용한다고 이해하고있었습니다만, 그런데 API 가이드를 확인하니  "대화형 문장 생성"과 "문장 생성" 이라고 작성되어있어 질문드립니다.  그렇다면 대화형이 아닌 일회성 문장 생성이 필요할 경우엔 HCX보다는 LK-B,LK-C,LK-D 등의 엔진이 더 성능면에서 우수하다는 것을 의미하는지 아니면 단순히 제가 이해한대로만 받아들이면 되는 것인지 궁금합니다. 

또, 한국어 모델, 영어 모델로 분류되어있는데 한국어/영어가 혼용된 질문일 경우 어느 모델이 적합할까요?

 

4. HCX를 Langchain에서 사용하려면 CustomLLM 기능을 이용해야 한다고 알고 있습니다. HCX를 랭체인으로 이용하는 방법에 대한 견본 코드가 제공되는 것이 있을까요?

이에 대해 네이버클라우드 측에서도 랭체인을 활용한 테스트를 해보셨을 것이라고 생각하는데 HCX를 제공하는 측에서 볼 때 기능과 구현의 효율면에서 랭체인을 사용하는 것을 추천하시는지 아니면 API만을 사용하여 템플릿을 구성하는 것을 추천하시는지 의견을 여쭙고 싶습니다. 

링크 복사
다른 사이트에 공유하기

안녕하세요 @copyrum님, 아래 답변 참고해주시면 감사하겠습니다.

1. `요청 처리 시간 초과` 에러는 처리할 수 있는 대기 시간 초과 시 발생하며, 이는 여러 조건에 따라 변동될 수 있어 명확히 알려드리거나 임의 변경할 수 없는 점 양해 부탁드립니다. stream으로 요청하신 경우 stream 중의 응답 사이가 아닌 stream 시작 전에 해당 오류가 발생합니다.

2. 예시 코드에서 사용하는 requests 라이브러리 상의 스트림 처리를 위한 옵션으로 헤더와 해당 옵션 모두를 설정해주셔야 합니다.

3. HCX 모델로도 대화형이 아닌 일회성 문장 생성이 가능합니다. 시스템 프롬프트 영역을 이용해, 프롬프트 작업을 진행할 수 있으며, HCX 모델이 여러 방면에서 더욱 좋은 성능을 냅니다. LE-C 영어 모델은 지원 종료가 된 점 참고 부탁드립니다. (참고: 공지 링크)

4. 랭체인(LangChain)을 통한 HCX 이용 방법 관련 견본 코드는 현재 제공하고 있지 않습니다. 랭체인의 효용성은 어떤 서비스를 구현하고자 하는지, 서비스 구현에 필요한 여러 제반 요소를 어떻게 구축하여 활용하고자 하는지 등에 따라 크게 달라질 수 있어 일률적으로 판단하여 답변드리기 어려운 점 양해 부탁드립니다.

감사합니다.

  • Like 1
링크 복사
다른 사이트에 공유하기

게시글 및 댓글을 작성하려면 로그인 해주세요.



로그인
×
×
  • Create New...