안녕하세요?
HCX-005에 대해 Clova Studio 내 '튜닝' 메뉴로 튜닝하려고 합니다.
https://clovastudio.ncloud.com/
데이터셋도 맞는 형식으로 준비하고
얘를 Object Storage에도 올리고
Media C뭐시기 Center에도 올리래서 올렸는데 막상 데이터셋 경로를 찾으려니 못찾겠네요.
어떤 형식으로 입력해야 하나요? 제가 사용한 코드는 아래와 같습니다.
================
# -*- coding: utf-8 -*-
# https://clovastudio.ncloud.com/tuning/create
import requests
class CreateTaskExecutor:
def __init__(self, host, uri, api_key, request_id):
self._host = host
self._uri = uri
self._api_key = api_key
self._request_id = request_id
def _send_request(self, create_request):
headers = {
'Authorization': self._api_key,
'X-NCP-CLOVASTUDIO-REQUEST-ID': self._request_id
}
result = requests.post(self._host + self._uri, json=create_request, headers=headers).json()
return result
def execute(self, create_request):
res = self._send_request(create_request)
if 'status' in res and res['status']['code'] == '20000':
return res['result']
else:
return res
if __name__ == '__main__':
completion_executor = CreateTaskExecutor(
host='https://clovastudio.stream.ntruss.com',
uri='/tuning/v2/tasks',
api_key='Bearer nv-',
request_id='f80'
)
request_data = {'name': 'generation_task',
'model': 'HCX-005',
'tuningType': 'PEFT',
'trainEpochs': '8',
'learningRate': '1e-5f',
'trainingDatasetBucket': 'trainidiomclova', >>> 폴더 이름 입력하래서 했구요
'trainingDatasetFilePath': 'trainidiomclova/NAVER_train_idiom_balanced.csv', >>> 경로가 이건가 했더니 이건 또 아니네요
'trainingDatasetAccessKey': 'ncp_iam_',
'trainingDatasetSecretKey': 'ncp_iam_'
}
response_text = completion_executor.execute(request_data)
print(request_data)
print(response_text)
===============================
개인적으로 저는 딥러닝/LLM을 공부하는 학생인데
OpenAI와 비교해봐도 Naver Clova의 플랫폼이 지나치게 복잡한 것 같습니다.
HyperClova의 미래를 위해서라도 개선해야 하지 않을까요..