Jump to content

늦은비

Members
  • 게시글

    4
  • 첫 방문

  • 최근 방문

Everything posted by 늦은비

  1. 해결완료 했습니다. 아래부분만 확인부탁드립니다. 3. 데이터 자릿수 제한 기준 문서 간 상충 공식 문서 및 콘솔 안내에서는 **"한 행의 최대 허용 자릿수"**에 대해 서로 다른 기준이 제시되고 있음: ❌ 기준 A – 1,000자 제한 출처: https://clovastudio.ncloud.com/tuning/dataset 문구: "파일의 한 행(Text, Completion 쌍)당 공백 포함 총 1,000자 이하여야 합니다. 초과 시 일부만 업로드됩니다." ❌ 기준 B – 8,000자 제한 출처: https://guide.ncloud-docs.com/docs/clovastudio-instructiondataset 문구: "한 행(System_Prompt, Text, Completion 포함) 기준 공백 포함 8,000자 이하로 입력해 주십시오. 초과 시 일부만 업로드됩니다." ⚠️ 확인 요청: 어떤 기준이 실제로 적용되는지 공식적으로 명시해 주시기 바랍니다 1,000자와 8,000자는 차이가 매우 커서 실제 데이터 구성 전략에도 큰 영향을 미칩니다
  2. 인코딩은 UTF-8 (BOM 없음)으로 저장 인코딩은 UTF-8 (BOM 있음)으로 저장 위 두사항으로 저장 해도 같은 오류가 발생합니다.
  3. 현재 Clova Studio 튜닝 API를 통해 학습 요청을 반복적으로 시도하고 있으나, 다음과 같은 공통 오류 메시지가 반복적으로 발생하고 있습니다. 🔴 “사유: 데이터셋에 오류가 있습니다. 데이터셋 업로드 규격을 확인해주세요.” 실제로는 어떤 조건에 위배되었는지 응답에서 명시되어 있지 않아, 개발자 측에서는 원인을 파악할 수 없습니다. 이에 따라 지금까지 확인된 문제 상황 및 문서 상의 충돌 지점을 다음과 같이 정리합니다. ✅ 1. 권한 문제로 추정되는 오류 사용자는 NCP 서브계정이며, NCP_ADMINISTRATOR 정책이 부여되어 있음 Object Storage에서 파일 업로드, 다운로드, 공개 설정 모두 정상적으로 가능 튜닝 API 호출 시 trainingDatasetAccessKey, trainingDatasetSecretKey는 직접 발급한 키로 설정 그러나 튜닝 API 요청 후 응답에서는 다음과 같이 데이터셋이 무시된 상태로 반환됨: "rowCount": 0, "fileSize": 0, "token": 0 ⚠️ 확인 요청: 해당 메시지가 실제 IAM 권한 부족으로 발생하는 것인지, 혹은 데이터 포맷 문제로 인해 내부에서 무시된 것인지 정확한 원인 규명이 필요합니다. 명확한 오류 메시지가 없다면 디버깅이 매우 어렵습니다. ✅ 2. 학습률 (learningRate) 값 예시 오류 공식 문서에는 다음과 같이 "1e-5f" 형식이 포함되어 있습니다. "learningRate": "1e-5f" 그러나 이 값을 그대로 API에 전달할 경우 다음과 같은 문제가 발생합니다: 내부적으로는 float 변환 시 오류 없이 처리되지만 일부 요청에서 튜닝 실패가 발생하며 원인 중 하나로 의심됨 ⚠️ 확인 요청: "1e-5f"가 허용되는지, 아니면 실제로는 "1e-5"와 같은 일반적인 float 문자열로만 전달해야 하는지 문서 상 정확한 표기 필요 현재는 "공식 문서 예시 자체가 오류일 가능성"이 존재함 ✅ 3. 데이터 자릿수 제한 기준 문서 간 상충 공식 문서 및 콘솔 안내에서는 **"한 행의 최대 허용 자릿수"**에 대해 서로 다른 기준이 제시되고 있음: ❌ 기준 A – 1,000자 제한 출처: https://clovastudio.ncloud.com/tuning/dataset 문구: "파일의 한 행(Text, Completion 쌍)당 공백 포함 총 1,000자 이하여야 합니다. 초과 시 일부만 업로드됩니다." ❌ 기준 B – 8,000자 제한 출처: https://guide.ncloud-docs.com/docs/clovastudio-instructiondataset 문구: "한 행(System_Prompt, Text, Completion 포함) 기준 공백 포함 8,000자 이하로 입력해 주십시오. 초과 시 일부만 업로드됩니다." ⚠️ 확인 요청: 어떤 기준이 실제로 적용되는지 공식적으로 명시해 주시기 바랍니다 1,000자와 8,000자는 차이가 매우 커서 실제 데이터 구성 전략에도 큰 영향을 미칩니다 ✅ 4. 최소 건수는 “권장”이지 필수 아님 공식 문서에서 다음과 같은 문구가 존재합니다: "instruction tuning의 효과를 보기 위해서는 턴 기준 최소 400건 이상 필요합니다." 그러나 이는 권장 기준일 뿐, 400건 미만이라고 학습이 실패해서는 안 됩니다 실제 현재 제출한 데이터는 40건 수준의 multi-turn 구성으로 구성되어 있음 ✅ 5. 학습 요청 후 데이터셋 무시됨 튜닝 요청은 정상적으로 처리되어 WAIT 상태가 되지만, 아래 정보가 항상 0으로 설정됨: "rowCount": 0, "fileSize": 0, "token": 0 에러 메시지: “사유: 데이터셋에 오류가 있습니다. 데이터셋 업로드 규격을 확인해주세요.” ⚠️ 확인 요청: 정확히 어떤 조건에 위배되어 데이터가 무시된 것인지 확인할 수 있는 수단이 전혀 없습니다 행당 자릿수 초과, 필드 누락, 인코딩 오류, 열 개수 불일치 등 어떤 요소가 문제인지 명시적인 검증 메시지가 필요합니다 ✅ 6. 추가 정보 인코딩은 UTF-8 (BOM 없음)으로 저장 완료 파일 포맷은 .csv로 저장 열 구조: System_Prompt, C_ID, T_ID, Text, Completion 모든 필드는 문자열이며, 대소문자 구분 없이 필드명은 동일하게 인식되는 것으로 확인됨 (공식 문서 명시) ✅ 요청사항 튜닝 데이터셋 오류의 정확한 원인 확인 요청 학습률 형식 (1e-5f vs 1e-5) 중 실제 유효 값 확인 요청 자릿수 제한 (1,000자 vs 8,000자) 적용 기준 공식 명시 요청 API 응답 시 실패 원인을 명확히 알 수 있는 메시지 개선 요청 * csv 파일 유첨 blogi_train_v2.csv
×
×
  • Create New...