ㅇㅇㅇ Posted November 30, 2023 Posted November 30, 2023 cli-emb-dolphin 사용하고 있습니다. 텍스트를 임베딩 하려 하니 토큰 제한 (512?)으로 안되는 chunk가 많아 네이버에서 사용하시는 토크나이저 기준으로 chunking을 해야할 것 같은데요. 토큰 수 확인 방법 있는지 문의드립니다. 데이터 양이 매우 많아 스튜디오 화면 상에서 입력하는 것(계산기? 기능)은 안될 것 같습니다.
CLOVA Studio 운영자9 Posted December 1, 2023 Posted December 1, 2023 안녕하세요 @ㅇㅇㅇ님, 현재 임베딩 도구의 경우 해당 도구 화면에서 안내되는 바와 같이 입력 text 길이가 500 토큰으로 제한됩니다. (모델 무관) 임베딩 도구에 적용된 모델은 CLOVA Studio의 일반/챗 모드 기본 엔진과 다르며, 다른 토크나이저를 활용하고 있어 플레이그라운드나 익스플로러 상의 토큰계산기를 사용할 수 없습니다. 이에 따라 임베딩 도구에 적용된 토크나이저를 기반으로 토큰 수 계산을 하실 수 있도록 조치중입니다만, 해당 기능 제공까지 일정 기간 소요될 수 있는 점 양해 부탁드립니다, 그 전까지는 아래 가이드를 참조하여 임베딩 대상 text를 전처리하신 후 임베딩 작업을 진행할 것을 권장드립니다. 또한 임베딩 API는 응답으로 벡터값과 함께 입력 Text의 토큰수를 함께 출력하므로 (inputTokens), 전처리 시 해당 수치를 참고해주시기 바랍니다. 대상 Text를 문장 단위로 나누어 임베딩 작업을 진행합니다. 요약v2 API를 활용하여 대상 Text를 특정 길이의 문단으로 나누어 요약한 후 임베딩 작업을 진행합니다. 문단 나누기 API를 활용하여 대상 Text를 특정 길이의 문단으로 나누어 임베딩 작업을 진행합니다. (임베딩 Text의 특성에 따라 같은 글자수에 배정되는 토큰수가 달라질 수 있음에 유의하시길 바랍니다. 도움이 되셨길 바랍니다. 감사합니다.
ㅇㅇㅇ Posted December 4, 2023 Author Posted December 4, 2023 안녕하세요. 답변 감사합니다. 확인차 여쭤보면, 요약/문단나누기는 cli-emb-dolphin와 동일한 토크나이저를 사용하는 것이 맞을까요?
CLOVA Studio 운영자9 Posted December 4, 2023 Posted December 4, 2023 안녕하세요 @ㅇㅇㅇ님, 요약/문단나누기와 임베딩 모델(clir-emb-dolphin, clir-sts-dolphin)은 서로 다른 토크나이저를 사용합니다. 때문에 앞서 설명드린 방안을 참고해주시면 감사하겠습니다. 감사합니다.
Recommended Posts
게시글 및 댓글을 작성하려면 로그인 해주세요.
로그인