Jump to content

파인 튜닝 시 데이터셋 경로


Recommended Posts

안녕하세요? 

HCX-005에 대해 Clova Studio 내 '튜닝' 메뉴로 튜닝하려고 합니다. 

https://clovastudio.ncloud.com/

 

데이터셋도 맞는 형식으로 준비하고

얘를 Object Storage에도 올리고

Media C뭐시기 Center에도 올리래서 올렸는데 막상 데이터셋 경로를 찾으려니 못찾겠네요.

어떤 형식으로 입력해야 하나요? 제가 사용한 코드는 아래와 같습니다. 

 

 

================

# -*- coding: utf-8 -*-
# https://clovastudio.ncloud.com/tuning/create
import requests

class CreateTaskExecutor:
    def __init__(self, host, uri, api_key, request_id):
        self._host = host
        self._uri = uri
        self._api_key = api_key
        self._request_id = request_id

    def _send_request(self, create_request):

        headers = {
            'Authorization': self._api_key,
            'X-NCP-CLOVASTUDIO-REQUEST-ID': self._request_id
        }
        result = requests.post(self._host + self._uri, json=create_request, headers=headers).json()
        return result

    def execute(self, create_request):
        res = self._send_request(create_request)
        if 'status' in res and res['status']['code'] == '20000':
            return res['result']
        else:
            return res


if __name__ == '__main__':
    completion_executor = CreateTaskExecutor(
        host='https://clovastudio.stream.ntruss.com',
        uri='/tuning/v2/tasks',
        api_key='Bearer nv-',
        request_id='f80'
    )

    request_data = {'name': 'generation_task',
                    'model': 'HCX-005',
                    'tuningType': 'PEFT',
                    'trainEpochs': '8',
                    'learningRate': '1e-5f',
                    'trainingDatasetBucket': 'trainidiomclova',  >>> 폴더 이름 입력하래서 했구요 
                    'trainingDatasetFilePath': 'trainidiomclova/NAVER_train_idiom_balanced.csv', >>> 경로가 이건가 했더니 이건 또 아니네요

                    'trainingDatasetAccessKey': 'ncp_iam_',
                    'trainingDatasetSecretKey': 'ncp_iam_'
                    }
    response_text = completion_executor.execute(request_data)
    print(request_data)
    print(response_text)

===============================

 

개인적으로 저는  딥러닝/LLM을 공부하는 학생인데

OpenAI와 비교해봐도 Naver Clova의 플랫폼이 지나치게 복잡한 것 같습니다.

HyperClova의 미래를 위해서라도 개선해야 하지 않을까요..

 

 

링크 복사
다른 사이트에 공유하기

안녕하세요.

OBS에서 trainidiomclova로 버킷을 생성하셨다면, 파일 경로 입력 시 버킷명은 제외해주셔야 합니다.
(파일을 클릭하신 후 ‘상세 정보’의 Link 중 버킷명을 제외한 버킷 내 경로 입력)
또한 AccessKey와 SecretKey는 OBS 접근 권한이 부여된 서브 계정 정보를 입력하셔야 하니 참고 부탁드립니다.

학습 데이터는 사용자의 소중한 자산이므로, CLOVA Studio에서는 데이터를 직접 저장하지 않고
사용자가 네이버 클라우드 플랫폼의 OBS와 서브 계정을 통해 직접 관리할 수 있도록 설계되어 있습니다.

설정 과정이 다소 복잡한 점에 대해서는
보다 편리하게 사용하실 수 있도록 개선 방안을 지속적으로 검토하겠습니다.

소중한 의견 감사합니다.

링크 복사
다른 사이트에 공유하기

게시글 및 댓글을 작성하려면 로그인 해주세요.



로그인
×
×
  • Create New...