늦은비 Posted Wednesday at 11:46 오전 공유하기 Posted Wednesday at 11:46 오전 현재 Clova Studio 튜닝 API를 통해 학습 요청을 반복적으로 시도하고 있으나, 다음과 같은 공통 오류 메시지가 반복적으로 발생하고 있습니다. 🔴 “사유: 데이터셋에 오류가 있습니다. 데이터셋 업로드 규격을 확인해주세요.” 실제로는 어떤 조건에 위배되었는지 응답에서 명시되어 있지 않아, 개발자 측에서는 원인을 파악할 수 없습니다. 이에 따라 지금까지 확인된 문제 상황 및 문서 상의 충돌 지점을 다음과 같이 정리합니다. ✅ 1. 권한 문제로 추정되는 오류 사용자는 NCP 서브계정이며, NCP_ADMINISTRATOR 정책이 부여되어 있음 Object Storage에서 파일 업로드, 다운로드, 공개 설정 모두 정상적으로 가능 튜닝 API 호출 시 trainingDatasetAccessKey, trainingDatasetSecretKey는 직접 발급한 키로 설정 그러나 튜닝 API 요청 후 응답에서는 다음과 같이 데이터셋이 무시된 상태로 반환됨: "rowCount": 0, "fileSize": 0, "token": 0 ⚠️ 확인 요청: 해당 메시지가 실제 IAM 권한 부족으로 발생하는 것인지, 혹은 데이터 포맷 문제로 인해 내부에서 무시된 것인지 정확한 원인 규명이 필요합니다. 명확한 오류 메시지가 없다면 디버깅이 매우 어렵습니다. ✅ 2. 학습률 (learningRate) 값 예시 오류 공식 문서에는 다음과 같이 "1e-5f" 형식이 포함되어 있습니다. "learningRate": "1e-5f" 그러나 이 값을 그대로 API에 전달할 경우 다음과 같은 문제가 발생합니다: 내부적으로는 float 변환 시 오류 없이 처리되지만 일부 요청에서 튜닝 실패가 발생하며 원인 중 하나로 의심됨 ⚠️ 확인 요청: "1e-5f"가 허용되는지, 아니면 실제로는 "1e-5"와 같은 일반적인 float 문자열로만 전달해야 하는지 문서 상 정확한 표기 필요 현재는 "공식 문서 예시 자체가 오류일 가능성"이 존재함 ✅ 3. 데이터 자릿수 제한 기준 문서 간 상충 공식 문서 및 콘솔 안내에서는 **"한 행의 최대 허용 자릿수"**에 대해 서로 다른 기준이 제시되고 있음: ❌ 기준 A – 1,000자 제한 출처: https://clovastudio.ncloud.com/tuning/dataset 문구: "파일의 한 행(Text, Completion 쌍)당 공백 포함 총 1,000자 이하여야 합니다. 초과 시 일부만 업로드됩니다." ❌ 기준 B – 8,000자 제한 출처: https://guide.ncloud-docs.com/docs/clovastudio-instructiondataset 문구: "한 행(System_Prompt, Text, Completion 포함) 기준 공백 포함 8,000자 이하로 입력해 주십시오. 초과 시 일부만 업로드됩니다." ⚠️ 확인 요청: 어떤 기준이 실제로 적용되는지 공식적으로 명시해 주시기 바랍니다 1,000자와 8,000자는 차이가 매우 커서 실제 데이터 구성 전략에도 큰 영향을 미칩니다 ✅ 4. 최소 건수는 “권장”이지 필수 아님 공식 문서에서 다음과 같은 문구가 존재합니다: "instruction tuning의 효과를 보기 위해서는 턴 기준 최소 400건 이상 필요합니다." 그러나 이는 권장 기준일 뿐, 400건 미만이라고 학습이 실패해서는 안 됩니다 실제 현재 제출한 데이터는 40건 수준의 multi-turn 구성으로 구성되어 있음 ✅ 5. 학습 요청 후 데이터셋 무시됨 튜닝 요청은 정상적으로 처리되어 WAIT 상태가 되지만, 아래 정보가 항상 0으로 설정됨: "rowCount": 0, "fileSize": 0, "token": 0 에러 메시지: “사유: 데이터셋에 오류가 있습니다. 데이터셋 업로드 규격을 확인해주세요.” ⚠️ 확인 요청: 정확히 어떤 조건에 위배되어 데이터가 무시된 것인지 확인할 수 있는 수단이 전혀 없습니다 행당 자릿수 초과, 필드 누락, 인코딩 오류, 열 개수 불일치 등 어떤 요소가 문제인지 명시적인 검증 메시지가 필요합니다 ✅ 6. 추가 정보 인코딩은 UTF-8 (BOM 없음)으로 저장 완료 파일 포맷은 .csv로 저장 열 구조: System_Prompt, C_ID, T_ID, Text, Completion 모든 필드는 문자열이며, 대소문자 구분 없이 필드명은 동일하게 인식되는 것으로 확인됨 (공식 문서 명시) ✅ 요청사항 튜닝 데이터셋 오류의 정확한 원인 확인 요청 학습률 형식 (1e-5f vs 1e-5) 중 실제 유효 값 확인 요청 자릿수 제한 (1,000자 vs 8,000자) 적용 기준 공식 명시 요청 API 응답 시 실패 원인을 명확히 알 수 있는 메시지 개선 요청 * csv 파일 유첨 blogi_train_v2.csv 링크 복사 다른 사이트에 공유하기 More sharing options...
늦은비 Posted Wednesday at 12:23 오후 Author 공유하기 Posted Wednesday at 12:23 오후 인코딩은 UTF-8 (BOM 없음)으로 저장 인코딩은 UTF-8 (BOM 있음)으로 저장 위 두사항으로 저장 해도 같은 오류가 발생합니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
늦은비 Posted Wednesday at 04:56 오후 Author 공유하기 Posted Wednesday at 04:56 오후 해결완료 했습니다. 아래부분만 확인부탁드립니다. 3. 데이터 자릿수 제한 기준 문서 간 상충 공식 문서 및 콘솔 안내에서는 **"한 행의 최대 허용 자릿수"**에 대해 서로 다른 기준이 제시되고 있음: ❌ 기준 A – 1,000자 제한 출처: https://clovastudio.ncloud.com/tuning/dataset 문구: "파일의 한 행(Text, Completion 쌍)당 공백 포함 총 1,000자 이하여야 합니다. 초과 시 일부만 업로드됩니다." ❌ 기준 B – 8,000자 제한 출처: https://guide.ncloud-docs.com/docs/clovastudio-instructiondataset 문구: "한 행(System_Prompt, Text, Completion 포함) 기준 공백 포함 8,000자 이하로 입력해 주십시오. 초과 시 일부만 업로드됩니다." ⚠️ 확인 요청: 어떤 기준이 실제로 적용되는지 공식적으로 명시해 주시기 바랍니다 1,000자와 8,000자는 차이가 매우 커서 실제 데이터 구성 전략에도 큰 영향을 미칩니다 링크 복사 다른 사이트에 공유하기 More sharing options...
CLOVA Studio 운영자 Posted yesterday at 07:26 오전 공유하기 Posted yesterday at 07:26 오전 안녕하세요, @늦은비 님, 혼선을 드려 죄송합니다. HyperCLOVA X 모델로 튜닝을 진행하려면 Instruction 데이터셋을 이용해야만 합니다. (https://guide.ncloud-docs.com/docs/clovastudio-instructiondataset#instruction-데이터셋) Instruction 데이터셋은 한 행의 데이터는 공백을 포함하여 8,000자 이하로 입력해야하고, 8,000자를 초과할 경우 데이터셋의 일부만 업로드됩니다. 함께 첨부해 주신 '1,000자 제한' 관련 내용은 종료된 LK 모델의 데이터셋 규격에 해당하는 부분이었습니다. 해당 내용은 수정하도록 하겠습니다. 번거로우시겠지만, 가이드 문서를 기준으로 확인 부탁드립니다. 감사합니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
늦은비 Posted 22 hours ago Author 공유하기 Posted 22 hours ago 감사합니다. 링크 복사 다른 사이트에 공유하기 More sharing options...
Recommended Posts
게시글 및 댓글을 작성하려면 로그인 해주세요.
로그인