Jump to content

파인 튜닝 시 데이터셋 경로


Recommended Posts

안녕하세요? 

HCX-005에 대해 Clova Studio 내 '튜닝' 메뉴로 튜닝하려고 합니다. 

https://clovastudio.ncloud.com/

 

데이터셋도 맞는 형식으로 준비하고

얘를 Object Storage에도 올리고

Media C뭐시기 Center에도 올리래서 올렸는데 막상 데이터셋 경로를 찾으려니 못찾겠네요.

어떤 형식으로 입력해야 하나요? 제가 사용한 코드는 아래와 같습니다. 

 

 

================

# -*- coding: utf-8 -*-
# https://clovastudio.ncloud.com/tuning/create
import requests

class CreateTaskExecutor:
    def __init__(self, host, uri, api_key, request_id):
        self._host = host
        self._uri = uri
        self._api_key = api_key
        self._request_id = request_id

    def _send_request(self, create_request):

        headers = {
            'Authorization': self._api_key,
            'X-NCP-CLOVASTUDIO-REQUEST-ID': self._request_id
        }
        result = requests.post(self._host + self._uri, json=create_request, headers=headers).json()
        return result

    def execute(self, create_request):
        res = self._send_request(create_request)
        if 'status' in res and res['status']['code'] == '20000':
            return res['result']
        else:
            return res


if __name__ == '__main__':
    completion_executor = CreateTaskExecutor(
        host='https://clovastudio.stream.ntruss.com',
        uri='/tuning/v2/tasks',
        api_key='Bearer nv-',
        request_id='f80'
    )

    request_data = {'name': 'generation_task',
                    'model': 'HCX-005',
                    'tuningType': 'PEFT',
                    'trainEpochs': '8',
                    'learningRate': '1e-5f',
                    'trainingDatasetBucket': 'trainidiomclova',  >>> 폴더 이름 입력하래서 했구요 
                    'trainingDatasetFilePath': 'trainidiomclova/NAVER_train_idiom_balanced.csv', >>> 경로가 이건가 했더니 이건 또 아니네요

                    'trainingDatasetAccessKey': 'ncp_iam_',
                    'trainingDatasetSecretKey': 'ncp_iam_'
                    }
    response_text = completion_executor.execute(request_data)
    print(request_data)
    print(response_text)

===============================

 

개인적으로 저는  딥러닝/LLM을 공부하는 학생인데

OpenAI와 비교해봐도 Naver Clova의 플랫폼이 지나치게 복잡한 것 같습니다.

HyperClova의 미래를 위해서라도 개선해야 하지 않을까요..

 

 

링크 복사
다른 사이트에 공유하기

게시글 및 댓글을 작성하려면 로그인 해주세요.



로그인
×
×
  • Create New...