ㅇㅇㅇ Posted November 30, 2023 공유하기 Posted November 30, 2023 cli-emb-dolphin 사용하고 있습니다. 텍스트를 임베딩 하려 하니 토큰 제한 (512?)으로 안되는 chunk가 많아 네이버에서 사용하시는 토크나이저 기준으로 chunking을 해야할 것 같은데요. 토큰 수 확인 방법 있는지 문의드립니다. 데이터 양이 매우 많아 스튜디오 화면 상에서 입력하는 것(계산기? 기능)은 안될 것 같습니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
CLOVA Studio 운영자9 Posted December 1, 2023 공유하기 Posted December 1, 2023 안녕하세요 @ㅇㅇㅇ님, 현재 임베딩 도구의 경우 해당 도구 화면에서 안내되는 바와 같이 입력 text 길이가 500 토큰으로 제한됩니다. (모델 무관) 임베딩 도구에 적용된 모델은 CLOVA Studio의 일반/챗 모드 기본 엔진과 다르며, 다른 토크나이저를 활용하고 있어 플레이그라운드나 익스플로러 상의 토큰계산기를 사용할 수 없습니다. 이에 따라 임베딩 도구에 적용된 토크나이저를 기반으로 토큰 수 계산을 하실 수 있도록 조치중입니다만, 해당 기능 제공까지 일정 기간 소요될 수 있는 점 양해 부탁드립니다, 그 전까지는 아래 가이드를 참조하여 임베딩 대상 text를 전처리하신 후 임베딩 작업을 진행할 것을 권장드립니다. 또한 임베딩 API는 응답으로 벡터값과 함께 입력 Text의 토큰수를 함께 출력하므로 (inputTokens), 전처리 시 해당 수치를 참고해주시기 바랍니다. 대상 Text를 문장 단위로 나누어 임베딩 작업을 진행합니다. 요약v2 API를 활용하여 대상 Text를 특정 길이의 문단으로 나누어 요약한 후 임베딩 작업을 진행합니다. 문단 나누기 API를 활용하여 대상 Text를 특정 길이의 문단으로 나누어 임베딩 작업을 진행합니다. (임베딩 Text의 특성에 따라 같은 글자수에 배정되는 토큰수가 달라질 수 있음에 유의하시길 바랍니다. 도움이 되셨길 바랍니다. 감사합니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
ㅇㅇㅇ Posted December 4, 2023 Author 공유하기 Posted December 4, 2023 안녕하세요. 답변 감사합니다. 확인차 여쭤보면, 요약/문단나누기는 cli-emb-dolphin와 동일한 토크나이저를 사용하는 것이 맞을까요? 링크 복사 다른 사이트에 공유하기 More sharing options...
CLOVA Studio 운영자9 Posted December 4, 2023 공유하기 Posted December 4, 2023 안녕하세요 @ㅇㅇㅇ님, 요약/문단나누기와 임베딩 모델(clir-emb-dolphin, clir-sts-dolphin)은 서로 다른 토크나이저를 사용합니다. 때문에 앞서 설명드린 방안을 참고해주시면 감사하겠습니다. 감사합니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
Recommended Posts
게시글 및 댓글을 작성하려면 로그인 해주세요.
로그인