-
게시글
16 -
첫 방문
-
최근 방문
Recent Profile Visitors
The recent visitors block is disabled and is not being shown to other users.
CLOVA Studio 운영자1's Achievements
-
안녕하세요. 먼저 문의 주신 내용에 답변드리자면, 작성하신 학습 데이터는 데이터 셋 규격에 맞게 작성된 것이 맞습니다. 다만 원하는 답변을 얻기 위해서는 규격에 맞아야 할 뿐 아니라 학습 데이터의 구성이 중요한데요, 특히 모델에 정보를 주입하고 주어진 정보 내에서 질의응답을 하는 성격의 작업은 학습 데이터의 질과 양 모두 충분해야 합니다. 동일한 정보 내용이라도 하더라도, 동일한 문장과 답변을 반복하는 것이 아닌 다양한 형태의 문장과 답변으로 구성하는 것과 주어진 정보 내에서 답변할 수 있도록 system prompt을 추가하여 구성하는 것을 권장 드립니다. 먼저 플레이그라운드에서 system prompt을 추가하여 동일한 정보에 대해서 일관된 질의 응답을 할수 있는 정도가 되는지 테스트를 해보고, 해당 테스트 결과를 기반으로 학습 데이터 셋를 만들어 학습 시켜보고, 결과의 성능을 향상 시키기 위해 학습 시 파라미터 조정과 데이터 셋을 수정하여 다시 학습 하는 과정의 반복이 필요합니다. 모델 학습에 전체적인 과정에 대한 안내와, system prompt 활용 및 챗봇 사례를 첨부드리니 참고 부탁드립니다. (*챗봇 사례는 동일한 상황은 아니나 작업 진행 시에 참고가 될 수 있어 함께 첨부드립니다.) 감사합니다.
-
안녕하세요, 답변이 조금 늦은 점 양해 부탁드립니다. 학습하는 데이터는 학습이 완료되면 바로 삭제 되어 내부적으로는 저장하지 않고 있으니 참고 부탁드립니다. 혹시 NCP OBS를 의미하시는 것이라면 사용자 계정 내 스토리지는 서비스에서 직접 접근하지 않습니다. 감사합니다.
-
안녕하세요, 혹시 utf-8 sig가 아닌지 인코딩 다시한번 확인 부탁드립니다. 감사합니다.
-
안녕하세요, @kwak님 클로바 스튜디오 담당입니다. 문의 주신 내용은 오히려 과적합으로 판단되기도 하여 epoch이나 learning_rate 변경 전에 학습 데이터 검토 권장 드립니다. * 학습 데이터에 단답형 답변이 어느 정도 포함되어 있는지 여부 * 학습과 인퍼런스에 동일한 system prompt를 사용했는지 여부 (학습 시 system prompt 포함하는 것은 선택 사항이긴 하나, 성능이 잘 나오지 않는다면 권장드립니다.) * (system prompt를 포함하여) 한 행의 글자 수는 8,000자 이하인지 여부 추가로 문의주신 epoch 수에 따른 비용은 토큰당 과금이므로, 추가되는 만큼 비용도 추가됩니다 (학습데이터 토큰 수 x epoch 수). 감사합니다.
-
NCP Object Storage 사용하지 않을 때 튜닝 api request파라미터 문의
CLOVA Studio 운영자1 replied to sooieese's topic in 이용 문의
안녕하세요, 현재 OBS를 통해서만 학습 요청이 가능하오니 참고 부탁드립니다. 해당 필드들은 필수이며, OBS를 통해 데이터를 업로드 하시고 trainingDatasetBucket에 버킷명, trainingDatasetFilePath에 버킷 내 경로 입력 부탁드립니다. 감사합니다. -
안녕하세요. 위 내용은 NCP 고객센터에서 안내된 사항이니 참고 부탁드립니다. (trainingDatasetFilePath 필드에 버킷 내 경로를 입력해주시면 됩니다.) 관련해서 가이드는 7월 중 업데이트 예정이니 해당 부분도 참고 부탁드립니다. 감사합니다.
-
Object Storage에 데이터를 업로드 후 튜닝 API에서 사용했을 때 토큰 수 측정 문의
CLOVA Studio 운영자1 replied to 모바일's topic in 이용 문의
안녕하세요. OBS로 업로드된 경우 토큰 수 계산을 하고 있지 않고 있어 현재 그렇게 보여지고 있습니다. 해당 부분 개선 검토할 예정이니 참고 부탁드립니다. 감사합니다. -
안녕하세요, 아래 내용 참고 부탁드립니다. 1. 응답 말투 스타일도 학습 가능합니다. 2. 최소 1,000건 이상의 데이터 셋으로 학습 부탁드립니다. 감사합니다.
-
안녕하세요, 질의 응답 시에 좀 더 정확한 답변을 하도록 할 경우, chat completions API로 인퍼런스 시 지시문 활용을 권장드립니다. - API 가이드 : https://api.ncloud-docs.com/docs/clovastudio-posttaskchatcompletions > messages[].role.system - 클로바 스튜디오가 수행할 구체적인 지시문을 인퍼런스 요청 시 포함할 수 있습니다. - 지시문 포함 필요 내용 : 입력된 내용에 대해서 정확하게 답변 하라는 지시문과, 실제 답변해야하는 정보 - e.g. 고객센터 번호는 ~~~ 입니다. 고객센터 번호를 물어볼 경우 이 번호로 대답해주세요. - messages[].role.system 값에 포함 가능한 글자 수는 messages에서 입력한 토큰 수와 maxTokens에서 입력한 토큰 수의 합은 4096 토큰을 초과할 수 없는 범위 내에서 입력 가능합니다. messages에서 입력한 토큰 수는 Chat Completions 토큰 계산 API를 호출하여 확인할 수 있습니다. (https://clovastudio.ncloud.com/explorer/tools/chat-tokenizer) 감사합니다.
-
@ETkim 님 안녕하세요, 관련해서 확인했고 12월 21일 이후에 반영될 예정입니다. 감사합니다.
-
안녕하세요, 확인 결과 해당 파일은 utf-8-sig로 저장되어 있어서 utf-8로 변환 필요합니다. 파일 변환 후 학습 부탁드립니다. 감사합니다.
-
안녕하세요, @smahn님, 1. 입력 방법 아래 API 가이드에서 message 내 system 에 대해 content를 추가합니다. https://api.ncloud-docs.com/docs/clovastudio-sendchatcompletionsbymodelname curl --location --request POST 'https://clovastudio.stream.ntruss.com/testapp/v1/chat-completions/HCX-002' \ --header 'X-NCP-CLOVASTUDIO-API-KEY: <X-NCP-CLOVASTUDIO-API-KEY>' \ --header 'X-NCP-APIGW-API-KEY: <X-NCP-APIGW-API-KEY>' \ --header 'X-NCP-CLOVASTUDIO-REQUEST-ID: <X-NCP-CLOVASTUDIO-REQUEST-ID>' \ --header 'Content-Type: application/json' \ --header 'Accept: text/event-stream' \ --data '{ "topK" : 0, "includeAiFilters" : true, "maxTokens" : 256, "temperature" : 0.5, "messages" : [ { "role" : "system", "content" : "test" }, { "role" : "user", "content" : "테스트 해보자." }, { "role" : "assistant", "content" : "알겠습니다. 무엇을 테스트해볼까요?" } ], "stopBefore" : [ ], "repeatPenalty" : 5.0, "topP" : 0.8 }' 2. 입력 예시는 아래와 같습니다. AI 어시스턴트는 주어진 내용에 대해서 정확히 이해하고 질문에 대답합니다. 주어진 내용 내에서만 답변합니다. 과제를 주관하는 주관자와 과제명은 아래와 같습니다. 주관 : 동국대학교 산학협력단, 과제 : 맥아제조 공정의 .. , 주관 : ~~, 과제 : ~~ 감사합니다.
-
안녕하세요, @smahn님, LLM 특성 상 hallucination 현상을 튜닝 학습으로 완벽하게 제어하기는 어렵습니다. 질의 응답 시에 좀 더 정확한 답변을 하도록 할 경우, chat completions API로 인퍼런스 시 지시문 활용을 권장드립니다. - 클로바 스튜디오가 수행할 구체적인 지시문을 인퍼런스 요청 시 포함할 수 있습니다. - API 가이드 : https://api.ncloud-docs.com/docs/clovastudio-posttaskchatcompletions > messages[].role.system - 지시문 포함 필요 내용 : 입력된 내용에 대해서 정확하게 답변 하라는 지시문과, 실제 답변해야하는 정보 (ex. 주관자명, 과제명.) - messages[].role.system 값에 포함 가능한 글자 수는 messages에서 입력한 토큰 수와 maxTokens에서 입력한 토큰 수의 합은 4096 토큰을 초과할 수 없는 범위 내에서 입력 가능합니다. messages에서 입력한 토큰 수는 Chat Completions 토큰 계산 API를 호출하여 확인할 수 있습니다. (https://clovastudio.ncloud.com/explorer/tools/chat-tokenizer) 감사합니다.
-
안녕하세요, @clovaGood님, LLM 특성 상 hallucination 현상을 튜닝 학습으로 완벽하게 제어하기는 어렵습니다. 질의 응답 시에 좀 더 정확한 답변을 하도록 할 경우, chat completions API로 인퍼런스 시 지시문 활용을 권장드립니다. - 클로바 스튜디오가 수행할 구체적인 지시문을 인퍼런스 요청 시 포함할 수 있습니다. - API 가이드 : https://api.ncloud-docs.com/docs/clovastudio-posttaskchatcompletions > messages[].role.system - 지시문 포함 필요 내용 : 입력된 내용에 대해서 정확하게 답변 하라는 지시문과, 실제 답변해야하는 정보 (ex. 대상자, 1. 발생연차) - messages[].role.system 값에 포함 가능한 글자 수는 messages에서 입력한 토큰 수와 maxTokens에서 입력한 토큰 수의 합은 4096 토큰을 초과할 수 없는 범위 내에서 입력 가능합니다. messages에서 입력한 토큰 수는 Chat Completions 토큰 계산 API를 호출하여 확인할 수 있습니다. (https://clovastudio.ncloud.com/explorer/tools/chat-tokenizer) 감사합니다.
-
안녕하세요, @nexusai님. 문의 주신 내용에 대해 아래와 같이 답변드립니다. #1 네, 3)번의 방식이 스킬 트레이너의 로직과 동일합니다. #2 네, 이해해주신 내용이 맞습니다. 튜닝은 사용자의 데이터셋을 기반으로 원하는 형태로 (답변하도록) 모델을 학습시키는 것이고, 스킬 트레이너는 적절한 API를 호출할 수 있도록 학습시키는 것입니다. 주어진 데이터셋에 최적화된 형태로 모델을 만들고자 하면 튜닝이 적절할 것이고, 서비스 API를 기반으로 출력하도록 작업하는 경우에는 스킬 트레이너가 적절합니다. #3 파인 튜닝은 Q&A 쌍으로 학습을 시켜서 학습 시킨 질문과 유사/일치한 질문이 들어왔을 때 답변을 주는 방식(매번 동일한 답변은 아닐 수 있습니다.) 입니다. 스킬 트레이너 튜닝은 고객의 질문에 답변을 할 수 있는 지 판별해 답변이 가능하다면 필요한 스킬을 규칙에 맞게 호출 하여 정형화 된 답변을 생성 하기 위해 학습한다고 이해해주시면 좋겠습니다. #4 모든 데이터를 커버할 수 있는 시나리오를 작성했다고 가정한다면 스킬 트레이너 비용이 더 클 것으로 예상됩니다. 스킬 트레이너의 경우 정해진 양식(플래너, 스킬 데이터 등)이 있기 때문에 파인튜닝 방식과 비교했을 때 학습에 사용되는 토큰 수가 더 많을 것으로 보입니다. #5 현재로서는 관련 기능 추가 계획이 없는 상황이지만, 추후 검토해보도록 하겠습니다. 추가적인 문의가 있으시다면 언제든지 남겨주세요. 감사합니다.