임베딩 모델에 대한 질문

beans · March 19, 2024

매번 질문할 때 마다 잘 답변해주셔서 감사합니다 🙂

임베딩 값들을 시멘틱 검색을 통해 결과물을 찾는 과정 가운데서 네이버 클라우드에서 제공하는 임베딩API 대해서 자세하게 알고 싶어서 문의를 드립니다.

clir-emb-dolphin, clir-sts-dolphin 두 모델이 있는 것으로 확인하였습니다.

clir-emb-dolphin 모델이 pre-trained 된 word 모델과 문맥을 고려한 Language model을 합친 Contextual word embedding으로 볼 수 있는 걸까요? 어떻게 높은 범용성을 가지고 있는지에 대해 궁금하여 질문을 드립니다.

다음으로, clir-sts-dolphin 모델에서 sts는 무슨 단어의 약자인가요? 또 해당 모델은 sent2vec과 같이 문장 간의 유사도를 중점으로 본다고 이해하면 될까요?

CLOVA Studio 운영자 · March 25, 2024

안녕하세요. @beans님,

1. 네, 맞습니다. Emb-dolphin 모델은 범용적으로 필요한 여러 분야의 도메인 지식을 처리 가능하도록 학습되었습니다.

2. sts는 Semantic Textual Similarity의 약자입니다. 문장간 유사도를 중점으로 진행하는 모델입니다.

Recommended Posts