Jump to content

임베딩 모델 사용시 토큰 수 확인 방법


ㅇㅇㅇ

Recommended Posts

cli-emb-dolphin 사용하고 있습니다.

텍스트를 임베딩 하려 하니 토큰 제한 (512?)으로 안되는 chunk가 많아

네이버에서 사용하시는 토크나이저 기준으로 chunking을 해야할 것 같은데요.

토큰 수 확인 방법 있는지 문의드립니다.

데이터 양이 매우 많아 스튜디오 화면 상에서 입력하는 것(계산기? 기능)은 안될 것 같습니다.

링크 복사
다른 사이트에 공유하기

안녕하세요 @ㅇㅇㅇ님, 

현재 임베딩 도구의 경우 해당 도구 화면에서 안내되는 바와 같이 입력 text 길이가 500 토큰으로 제한됩니다. (모델 무관)

임베딩 도구에 적용된 모델은 CLOVA Studio의 일반/챗 모드 기본 엔진과 다르며, 다른 토크나이저를 활용하고 있어 플레이그라운드나 익스플로러 상의 토큰계산기를 사용할 수 없습니다.

이에 따라 임베딩 도구에 적용된 토크나이저를 기반으로 토큰 수 계산을 하실 수 있도록 조치중입니다만, 해당 기능 제공까지 일정 기간 소요될 수 있는 점 양해 부탁드립니다,

그 전까지는 아래 가이드를 참조하여 임베딩 대상 text를 전처리하신 후 임베딩 작업을 진행할 것을 권장드립니다. 또한 임베딩 API는 응답으로 벡터값과 함께 입력 Text의 토큰수를 함께 출력하므로 (inputTokens), 전처리 시 해당 수치를 참고해주시기 바랍니다.

  1. 대상 Text를 문장 단위로 나누어 임베딩 작업을 진행합니다.
  2. 요약v2 API를 활용하여 대상 Text를 특정 길이의 문단으로 나누어 요약한 후 임베딩 작업을 진행합니다.
  3. 문단 나누기 API를 활용하여 대상 Text를 특정 길이의 문단으로 나누어 임베딩 작업을 진행합니다.
    (임베딩 Text의 특성에 따라 같은 글자수에 배정되는 토큰수가 달라질 수 있음에 유의하시길 바랍니다.

도움이 되셨길 바랍니다.

감사합니다.

링크 복사
다른 사이트에 공유하기

게시글 및 댓글을 작성하려면 로그인 해주세요.



로그인
×
×
  • Create New...