TABA Posted April 30 공유하기 Posted April 30 안녕하세요. 문의드립니다. 문단나누기 api 를 사용하여 데이터를 chunking 후 임베딩 api를 사용하여 벡터화 처리를 하려 합니다. 임베딩 api에서 처리 가능한 최대 500 토큰을 지키기 위해서 요약 api 사용을 권장하는 것으로 알고 있는데요. 요약 api의 segMaxSize 파라미터의 경우 단위가 토큰이 아닌 글자수인 관계로 처리가 애매합니다. 익스플로러의 토큰계산기 api가 이러한 상황에서 토큰 수를 체크하기 위한 용도로 제공하는 것일까요? chunking 된 데이터를 임베딩 처리하기 위한 500 토큰 초과 여부를 확인할 수 있는 방법에 대해서 알고싶습니다. 감사합니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
CLOVA Studio 운영자9 Posted May 2 공유하기 Posted May 2 안녕하세요 @TABA님, 현재 임베딩 모델의 토큰계산기를 별도로 제공하고 있지 않으며, 요약 및 문단나누기 API의 경우 글자수를 단위로 처리되고 있어 약간의 전처리/후처리 작업이 필요한 상황입니다. 따라서 아래 사항을 참고하셔서 임베딩 API를 활용해주시면 감사하겠습니다. 대상 Text의 길이가 임베딩 API의 최대 처리 가능 길이(500 토큰)를 초과할 경우 임베딩 작업이 불가하며, 에러 코드(40003)를 반환합니다. 이러한 상황을 방지하기 위해 임베딩 대상 Text를 나누거나 요약하는 등의 길이 조절을 위한 전처리 과정이 필요할 수 있으며, 아래와 같은 방법을 도입할 수 있습니다. 대상 Text를 문장 단위로 나누어 임베딩 작업을 진행합니다. 요약 API를 활용하여 대상 Text를 특정 길이의 문단으로 나누어 요약한 후 임베딩 작업을 진행합니다. 문단 나누기 API를 활용하여 대상 Text를 특정 길이의 문단으로 나누어 임베딩 작업을 진행합니다. 임베딩 작업을 위한 대상 Text를 전처리 할 때 아래와 같은 사항을 고려해 주십시오. 익스플로러의 도구들은 해당 작업에 최적화된 모델에 기반하여 작동하며, 서로 다른 토큰화 기법이 적용되고 있습니다. 따라서 동일한 Text에 대해 도구에 따라 토큰화 결과가 달라질 수 있으며, 같은 Text에 배정되는 토큰수 역시 다를 수 있습니다. 현재 임베딩 API는 응답으로 벡터값과 함께 입력 Text의 토큰수를 함께 출력하므로 (inputTokens), 전처리 시 해당 수치를 참고해주시기 바랍니다. 임베딩 Text의 특성에 따라 같은 글자수에 배정되는 토큰수가 달라질 수 있으며 아래의 특성을 감안하여 설정할 것을 권고합니다. (토큰당 글자수가 적을수록 임베딩 대상 Text의 길이를 짧게 조절해야 합니다.) 전문 용어 등이 다수 포함된 특정 분야/영역의 Text는 토큰당 글자수가 상대적으로 적은 경향이 있습니다. Text 내 숫자, 구두점, 불규칙적인 띄어쓰기 등이 많을수록 토큰당 글자수가 적어지는 경향이 있습니다. 한글과 영문이 혼합된 Text의 경우, 영문의 비중에 따라 토큰당 글자수가 많아지는 경향이 있습니다. 임베딩 API와 관련하여 해당 작업이 번거롭다는 점을 감안하여 보다 유연하고 최적화된 임베딩 토큰 처리를 위한 기능을 준비하고 있습니다. 계속하여 편리하고 효율적인 서비스를 제공해 드릴 수 있도록 노력하겠습니다. 감사합니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
Recommended Posts
게시글 및 댓글을 작성하려면 로그인 해주세요.
로그인