jun Posted Saturday at 04:50 오전 공유하기 Posted Saturday at 04:50 오전 안녕하세요, 현재 프로젝트에서 문자열 기반 유사도 연산을 위한 임베딩v1 모델을 활용하고 있습니다. 공식 문서에서 QPM이 60으로 기재되어있던데, 혹시 QPM 산정은 1분 단위로 카운팅을 해서 60개 이하일 경우 정상 응답반환하고 초과 필터링을 하시나요(고정 윈도우 방식)? 아니면 매 순간순간마다 체크포인트를 걸면서 산정하시나요(슬라이딩 윈도우 방식)? 임베딩v1의 요청당 QPM 만족 계산 방법을 어떻게 구축해두셨는지 궁금합니다 링크 복사 다른 사이트에 공유하기 More sharing options...
CLOVA Studio 운영자9 Posted 9 hours ago 공유하기 Posted 9 hours ago 안녕하세요 @jun님, CLOVA Studio의 이용량 제어는 사용자별 첫 요청을 시점으로 고정 윈도우 방식으로 이뤄지고 있습니다. 감사합니다. 1 링크 복사 다른 사이트에 공유하기 More sharing options...
jun Posted 5 hours ago Author 공유하기 Posted 5 hours ago 답변 감사합니다. 말씀하신 방식이라면, 시작 시점에 60개 이하의 요청 트래픽이 몰려도 정상 처리되나, 요청 처리 이후 60초가 경과할 때까지 추가 요청이 들어오면 QPM 초과로 판단되어 해당 요청에 대해서는 429 반환을 한다는 뜻으로 이해해도 괜찮을까요? 링크 복사 다른 사이트에 공유하기 More sharing options...
CLOVA Studio 운영자9 Posted 4 hours ago 공유하기 Posted 4 hours ago 안녕하세요 @jun님, 말씀주신 사항을 제가 잘 이해하지 못했는데요. 이전 60초 이내 요청이 없다는 가정하에, 첫 요청이 들어온 시점으로부터 1분(=60초) 이내 요청이 60개를 넘는 경우, 처음으로 초과하는 요청 시점부터 남은 시간동안 들어오는 요청이 전부 429 에러를 받게 됩니다. 해당 윈도우는 첫 요청이 들어온 시점에서 1분이 지나면 리셋되며, 다시 그 이후 첫 요청이 들어온 시점부터 계산됩니다. 참고차 말씀드리면, 아래 링크에서 fixed window with user-defined start 방식으로 보시면 되겠습니다. https://smudge.ai/blog/ratelimit-algorithms#token-buckets 감사합니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
Recommended Posts
게시글 및 댓글을 작성하려면 로그인 해주세요.
로그인