Jump to content

튜닝작업 " 대화" 데이터셋 관련 문의


smahn

Recommended Posts

안녕하세요

데이터셋이 아래와 같은 형식의 데이터를 넣고 테스트를 진행했을 시 제가 입력한 답변과 비슷하게 답변을 받고 싶은데 

yV_vGTgXm7nRaaW3EGgNKB7j5M37-wkN_ohsLqZQggoWXDjLZbRCao1ZZFDQjJpdIjQprMO3HIPVaHtsm_r0SXkCJ25nyZhtyYzZwvVU_0jN5WmgYLtfrdNUnt9Wp2psM9-Hi7IvOsmyAO0kfJrvqs4

아래와 같은 답변이 나옵니다.

anKJ9V65NE2yC7fKzztSM_XhShC-Bxe1kiMhhZjvUmz2Zfn9cJaw94uGaYthTkjo-vWLLHeOMdqx-ig0cqPhf6abDUOZNA8KLauZxfpvbxF6IBlXpN8oWQxLKiRd9w1fVSFqWkgjNZ-L35AmHS9SsPg

제가 넣은 데이터셋과는 관련없이 기본엔진에 학습된 답변을 하는 것 같습니다.

이런 경우 어떻게 진행해야하는지 가이드 부탁드립니다.

image.png

링크 복사
다른 사이트에 공유하기

안녕하세요, @smahn님,

LLM 특성 상 hallucination 현상을 튜닝 학습으로 완벽하게 제어하기는 어렵습니다.

질의 응답 시에 좀 더 정확한 답변을 하도록 할 경우, chat completions API로 인퍼런스 시  지시문 활용을 권장드립니다.

- 클로바 스튜디오가 수행할 구체적인 지시문을 인퍼런스 요청 시 포함할 수 있습니다.

- API 가이드 : https://api.ncloud-docs.com/docs/clovastudio-posttaskchatcompletions > messages[].role.system

- 지시문 포함 필요 내용 : 입력된 내용에 대해서 정확하게 답변 하라는 지시문과,  실제 답변해야하는 정보  (ex. 주관자명, 과제명.)

-  messages[].role.system 값에 포함 가능한 글자 수는  messages에서 입력한 토큰 수와 maxTokens에서 입력한 토큰 수의 합은 4096 토큰을 초과할 수 없는 범위 내에서 입력 가능합니다.  

messages에서 입력한 토큰 수는 Chat Completions 토큰 계산 API를 호출하여 확인할 수 있습니다. (https://clovastudio.ncloud.com/explorer/tools/chat-tokenizer)

감사합니다. 

링크 복사
다른 사이트에 공유하기

  • 2 weeks later...

- 지시문 포함 필요 내용 : 입력된 내용에 대해서 정확하게 답변 하라는 지시문과,  실제 답변해야하는 정보  (ex. 주관자명, 과제명.)

이 부분이 잘 이해가 가지 않는데 상세한 가이드는 없을까요?

입력된 내용에 대해서 정확하게 답변 하라는 지시문을 message.role에서 system: 역할을 규정하는 지시문 여기에 넣으라는 건가요?

 

링크 복사
다른 사이트에 공유하기

21 hours ago, smahn said:

- 지시문 포함 필요 내용 : 입력된 내용에 대해서 정확하게 답변 하라는 지시문과,  실제 답변해야하는 정보  (ex. 주관자명, 과제명.)

이 부분이 잘 이해가 가지 않는데 상세한 가이드는 없을까요?

입력된 내용에 대해서 정확하게 답변 하라는 지시문을 message.role에서 system: 역할을 규정하는 지시문 여기에 넣으라는 건가요?

 

안녕하세요, @smahn님,


1. 입력 방법
아래 API 가이드에서 
 message 내 system 에 대해  content를 추가합니다. 
https://api.ncloud-docs.com/docs/clovastudio-sendchatcompletionsbymodelname
curl --location --request POST 'https://clovastudio.stream.ntruss.com/testapp/v1/chat-completions/HCX-002' \
--header 'X-NCP-CLOVASTUDIO-API-KEY: <X-NCP-CLOVASTUDIO-API-KEY>' \
--header 'X-NCP-APIGW-API-KEY: <X-NCP-APIGW-API-KEY>' \
--header 'X-NCP-CLOVASTUDIO-REQUEST-ID: <X-NCP-CLOVASTUDIO-REQUEST-ID>' \
--header 'Content-Type: application/json' \
--header 'Accept: text/event-stream' \
--data '{
  "topK" : 0,
  "includeAiFilters" : true,
  "maxTokens" : 256,
  "temperature" : 0.5,
  "messages" : [ {
    "role" : "system",
    "content" : "test"
  }, {
    "role" : "user",
    "content" : "테스트 해보자."
  }, {
    "role" : "assistant",
    "content" : "알겠습니다. 무엇을 테스트해볼까요?"
  } ],
  "stopBefore" : [ ],
  "repeatPenalty" : 5.0,
  "topP" : 0.8
}' 


2. 입력 예시는 아래와 같습니다. 

AI 어시스턴트는 주어진 내용에 대해서 정확히 이해하고 질문에 대답합니다. 주어진 내용 내에서만 답변합니다. 
과제를 주관하는 주관자와 과제명은 아래와 같습니다. 

주관 : 동국대학교 산학협력단, 과제 :  맥아제조 공정의 .. , 주관 : ~~, 과제 : ~~ 

감사합니다.

링크 복사
다른 사이트에 공유하기

게시글 및 댓글을 작성하려면 로그인 해주세요.



로그인
×
×
  • Create New...