RAG 서비스를 만들고 있습니다. 장문의 문서의 경우 LLM 적용에서 모델 컨텍스트 윈도우 최적 사용을 위해 토큰 수 기준으로 문단 분리를 하고 있습니다. 다만, 문장 단위로 토큰 수 계산을 하니, HCX 토커나이저를 적용을 하는 과정에서 문서가 길어질 경우 토커나이저 API 에서 Rate Limit 이 발생합니다.
저희 서비스에서 타사 LLM을 사용하는 경우, 그 쪽에서 API가 아닌 토커나이저 라이브러리를 제공하고 있어 토큰 수 계산을 위한 Rate Limit 을 고려하지 않아도 되는 환경이지만, CLOVA의 경우 이를 추가로 고려해야 되는 상황입니다.