kwak Posted October 15, 2024 공유하기 Posted October 15, 2024 안녕하세요, 클로바 스튜디오 운영자님. 최근에 튜닝 모델을 학습시킨 후 테스트 과정에서, 응답이 저희의 의도와 다르게 부적합하다는 사실을 발견했습니다. 저희의 데이터셋은 약 10,000개의 상담(질의 응답 형태) 데이터로 구성되어 있으며, 모든 데이터가 싱글턴 시나리오에 기반하여 준비되었습니다. 그러나 튜닝모델의 일반 모델(튜닝을 하지 않은 HCX-003 에 비해 응답 품질이 눈에 띄게 떨어집니다. 정리드리자면, 아래와 같은 문제점이 있습니다. 짧고 불완전한 응답: 응답이 중간에 끊기거나 짧게 나오는 경우가 자주 발생하고 있습니다. 시스템 프롬프트의 미반영: 모델이 시스템 프롬프트를 제대로 반영하지 못하는 문제도 있습니다. 응답의 일관성 부족: 특정 상황에서는 모델이 구체적이고 유익한 답변을 제공하지만, 다른 경우에는 단답형으로 응답하는 경우가 많아 일관성이 결여되어 있습니다. 저의 추론은, 현재 튜닝된 모델의 학습 epoch 수가 기본값인 8로 설정되어 있어 충분하지 않다고 판단했습니다. 이로 인해 과소 적합 문제가 발생할 수 도 있다고 생각합니다. 아래는 제가 개인적으로 생각하는 해결 방법인데, 더 좋은 방법 또는, 가이드가 있다면 알려주시면 감사하겠습니다. epoch 수를 증가시키면 과소 적합 문제가 해결될까요? (현재 train_loss = 0.9268) epoch 수를 증가시킨다면, 몇으로 설정하는 게 좋을까요? (상담 데이터 약 1만건) 이외의 방법을 소개해주신다면 감사하겠습니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
kwak Posted October 15, 2024 Author 공유하기 Posted October 15, 2024 추가로 epoch수 증가에 따라서, 학습 비용에 변동사항이 있을까요? 링크 복사 다른 사이트에 공유하기 More sharing options...
CLOVA Studio 운영자1 Posted October 18, 2024 공유하기 Posted October 18, 2024 안녕하세요, @kwak님 클로바 스튜디오 담당입니다. 문의 주신 내용은 오히려 과적합으로 판단되기도 하여 epoch이나 learning_rate 변경 전에 학습 데이터 검토 권장 드립니다. * 학습 데이터에 단답형 답변이 어느 정도 포함되어 있는지 여부 * 학습과 인퍼런스에 동일한 system prompt를 사용했는지 여부 (학습 시 system prompt 포함하는 것은 선택 사항이긴 하나, 성능이 잘 나오지 않는다면 권장드립니다.) * (system prompt를 포함하여) 한 행의 글자 수는 8,000자 이하인지 여부 추가로 문의주신 epoch 수에 따른 비용은 토큰당 과금이므로, 추가되는 만큼 비용도 추가됩니다 (학습데이터 토큰 수 x epoch 수). 감사합니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
Recommended Posts
게시글 및 댓글을 작성하려면 로그인 해주세요.
로그인