현재 Clova Studio 튜닝 API를 통해 학습 요청을 반복적으로 시도하고 있으나, 다음과 같은 공통 오류 메시지가 반복적으로 발생하고 있습니다.
🔴 “사유: 데이터셋에 오류가 있습니다. 데이터셋 업로드 규격을 확인해주세요.”
실제로는 어떤 조건에 위배되었는지 응답에서 명시되어 있지 않아, 개발자 측에서는 원인을 파악할 수 없습니다.
이에 따라 지금까지 확인된 문제 상황 및 문서 상의 충돌 지점을 다음과 같이 정리합니다.
✅ 1. 권한 문제로 추정되는 오류
사용자는 NCP 서브계정이며, NCP_ADMINISTRATOR 정책이 부여되어 있음
Object Storage에서 파일 업로드, 다운로드, 공개 설정 모두 정상적으로 가능
튜닝 API 호출 시 trainingDatasetAccessKey, trainingDatasetSecretKey는 직접 발급한 키로 설정
그러나 튜닝 API 요청 후 응답에서는 다음과 같이 데이터셋이 무시된 상태로 반환됨:
"rowCount": 0, "fileSize": 0, "token": 0
⚠️ 확인 요청:
해당 메시지가 실제 IAM 권한 부족으로 발생하는 것인지, 혹은 데이터 포맷 문제로 인해 내부에서 무시된 것인지 정확한 원인 규명이 필요합니다.
명확한 오류 메시지가 없다면 디버깅이 매우 어렵습니다.
✅ 2. 학습률 (learningRate) 값 예시 오류
공식 문서에는 다음과 같이 "1e-5f" 형식이 포함되어 있습니다.
"learningRate": "1e-5f"
그러나 이 값을 그대로 API에 전달할 경우 다음과 같은 문제가 발생합니다:
내부적으로는 float 변환 시 오류 없이 처리되지만
일부 요청에서 튜닝 실패가 발생하며 원인 중 하나로 의심됨
⚠️ 확인 요청:
"1e-5f"가 허용되는지, 아니면 실제로는 "1e-5"와 같은 일반적인 float 문자열로만 전달해야 하는지 문서 상 정확한 표기 필요
현재는 "공식 문서 예시 자체가 오류일 가능성"이 존재함
✅ 3. 데이터 자릿수 제한 기준 문서 간 상충
공식 문서 및 콘솔 안내에서는 **"한 행의 최대 허용 자릿수"**에 대해 서로 다른 기준이 제시되고 있음:
❌ 기준 A – 1,000자 제한
출처: https://clovastudio.ncloud.com/tuning/dataset
문구:
"파일의 한 행(Text, Completion 쌍)당 공백 포함 총 1,000자 이하여야 합니다. 초과 시 일부만 업로드됩니다."
❌ 기준 B – 8,000자 제한
출처: https://guide.ncloud-docs.com/docs/clovastudio-instructiondataset
문구:
"한 행(System_Prompt, Text, Completion 포함) 기준 공백 포함 8,000자 이하로 입력해 주십시오. 초과 시 일부만 업로드됩니다."
⚠️ 확인 요청:
어떤 기준이 실제로 적용되는지 공식적으로 명시해 주시기 바랍니다
1,000자와 8,000자는 차이가 매우 커서 실제 데이터 구성 전략에도 큰 영향을 미칩니다
✅ 4. 최소 건수는 “권장”이지 필수 아님
공식 문서에서 다음과 같은 문구가 존재합니다:
"instruction tuning의 효과를 보기 위해서는 턴 기준 최소 400건 이상 필요합니다."
그러나 이는 권장 기준일 뿐, 400건 미만이라고 학습이 실패해서는 안 됩니다
실제 현재 제출한 데이터는 40건 수준의 multi-turn 구성으로 구성되어 있음
✅ 5. 학습 요청 후 데이터셋 무시됨
튜닝 요청은 정상적으로 처리되어 WAIT 상태가 되지만, 아래 정보가 항상 0으로 설정됨:
"rowCount": 0, "fileSize": 0, "token": 0
에러 메시지:
“사유: 데이터셋에 오류가 있습니다. 데이터셋 업로드 규격을 확인해주세요.”
⚠️ 확인 요청:
정확히 어떤 조건에 위배되어 데이터가 무시된 것인지 확인할 수 있는 수단이 전혀 없습니다
행당 자릿수 초과, 필드 누락, 인코딩 오류, 열 개수 불일치 등 어떤 요소가 문제인지 명시적인 검증 메시지가 필요합니다
✅ 6. 추가 정보
인코딩은 UTF-8 (BOM 없음)으로 저장 완료
파일 포맷은 .csv로 저장
열 구조: System_Prompt, C_ID, T_ID, Text, Completion
모든 필드는 문자열이며, 대소문자 구분 없이 필드명은 동일하게 인식되는 것으로 확인됨 (공식 문서 명시)
✅ 요청사항
튜닝 데이터셋 오류의 정확한 원인 확인 요청
학습률 형식 (1e-5f vs 1e-5) 중 실제 유효 값 확인 요청
자릿수 제한 (1,000자 vs 8,000자) 적용 기준 공식 명시 요청
API 응답 시 실패 원인을 명확히 알 수 있는 메시지 개선 요청
* csv 파일 유첨
blogi_train_v2.csv