Jump to content

Search the Community

Showing results for tags 'hyperclovax'.

  • Search By Tags

    태그는 ,로 구분됩니다.
  • Search By Author

Content Type


Forums

  • CLOVA Studio
    • CLOVA Studio
  • Maps
    • Maps
  • ARC eye
    • ARC eye

Find results in...

Find results that contain...


Date Created

  • Start

    End


Last Updated

  • Start

    End


Filter by number of...

Joined

  • Start

    End


Group


About Me

Found 3 results

  1. 한국의 문화적 특성을 반영해 고안된 벤치마크, KMMLU 네이버 클라우드와 EleutherAI 그리고 손규진 님(EleutherAI, OneLine AI)을 비롯한 HAERAE 팀이 협력하여 만든 KMMLU가 정식으로 공개 되었습니다. 이번 포스팅에서는 KMMLU에 대한 논문(KMMLU: Measuring Massive Multitask Language Understanding in Korean) 소개와 실험 결과를 소개하겠습니다. Guijin Son, Hanwool Lee, Sungdong Kim, Seungone Kim, Niklas Muennighoff, Taekyoon Choi, Cheonbok Park, Kang Min Yoo, and Stella Biderman. "KMMLU: Measuring Massive Multitask Language Understanding in Korean." 2024, https://arxiv.org/abs/2402.11548. 이번 실험 결과에서는 HyperCLOVA X는 한국 특화 지식과 관련하여 GPT-3.5 Turbo와 Gemini-pro를 압도하였습니다. 그만큼 한국어 LLM 시장에서 HyperCLOVA X가 선두 주자라는 사실이 증명되었고, 한국어 영역의 지식과 CoT에서는 GPT-4보다 나은 성능을 보입니다. 기존 MMLU 방식의 평가 그동안 MMLU 데이터를 기반으로 한 많은 AI 모델이 평가되었습니다. 하지만 아래 그림에서 볼 수 있듯이, MMLU는 영어문화권 사용자를 위해 설계되었고, 따라서 이 벤치마크를 한국어로 활용하기 위해서는 기계를 통한 단순 번역을 거치곤 했습니다. 그러나 MMLU를 한국어로 단순히 번역해 활용하는 것엔 몇가지 문제점이 있습니다. ▲위의 예시처럼 기계를 통한 단순 번역은 오타나 문법적 실수를 발생시킬 뿐만 아니라 부자연스러운 표현으로 인해 데이터 세트의 질을 심각하게 떨어트릴 수 있죠. 또 MMLU가 영어문화권 사용자를 위해 설계되었다는 점을 고려했을 때, 영어의 속어(slang)나 문화적 친숙성 관련 편향도 데이터셋의 한계로 꾸준히 지적되어 왔습니다. 이처럼 시험지가 영어로 되어있다는 이유만으로 한국어 언어 모델이 낮은 점수를 받게 된다면, 언어모델(LLM)의 역량을 제대로 파악하는 데 문제가 되겠죠. 바로 이 문제를 해결하기 위해 한국의 문화적 특성을 반영해 고안된 벤치마크, KMMLU를 소개합니다! 인문학부터, 과학, 기술, 공학 그리고 수학까지 KMMLU는 인문학부터 STEM 분야까지 총 45개 주제를 포괄하는 35,030개의 전문가 수준 다지선형 선택 문제로 구성된 새로운 한국어 벤치마크입니다. 기존 영어 벤치마크를 한국어로 번역한 이전 벤치마크와 달리, KMMLU는 한국어 고시 등 원본 한국어 시험에서 수집하여 한국어의 언어적, 문화적 특징을 반영하고 있습니다. ▲ 우리나라 대도시지역의 주요 문제부터, 한국 간호사의 윤리 강령등 도메인 내에서도 한국적 특성을 반영한 문항이 다수 보입니다. KMMLU 실험 결과 KMMLU 평가를 통해 평균 성능을 살펴보면 대체로 LLM은 마케팅, 컴퓨터 과학, 정보 기술, 통신 및 무선 기술 분야에서 우수한 성능을 보였습니다. 반대로 한국사, 수학, 특허, 세무, 형법 등 특정 문화적 또는 지역적 지식이 있어야 하는 분야에서는 일반적으로 낮은 점수를 보였습니다. 예를 들어, LLM은 한국사에서 가장 낮은 성능을 보이며, 수학, 특허, 세무, 형법 순으로 성능이 낮았죠. 특히 특허, 세무, 형법과 같은 분야는 한국 법률 제도 및 해당 법률 해석에 대한 이해를 요구하기 때문인지 특히 낮은 점수를 드러냈습니다. HyperCLOVA X의 시험 결과는? 한국과 관련된 다양한 분야의 지식이 요구되는 영역에서 특히 우수한 성능을 보였습니다. 구체적으로는 한국의 법률, 지리, 문화의 영역에서 타 모델들 대비 가장 우수한 점수를 기록했습니다. 특히 GPT-3.5 Turbo와 Gemini-Pro를 무려 10점이 넘는 차이를 보였습니다. HYPERCLOVA X는 GPT-4에 비해 한국 관련 질문에 대한 답변에서 더 우수한 성능을 보였습니다. ▼ HyperCLOVA X 팀의 노하우를 담아 직접 제작한 CoT(Chain of Thought) 프롬프트로 HyperCLOVA X, GPT-3.5-Turbo, GPT-4, Gemini-Pro의 KMMLU 수행 능력을 평가했습니다. CoT 프롬프트 적용시 KMMLU의 영역별 점수를 평균낸 총점에 대해 GPT-4 Turbo를 포함한 비교 모델군중 HyperCLOVA X가 가장 높은 값을 기록했습니다. HyperCLOVA X는 STEM(자연계열 및 공학계열), Applied Science(응용 과학), HUMSS(사회과학), 기타 항목으로 구성된 KMMLU의 전 영역에서 Direct 프롬프트보다 CoT 프롬프트에서 더 높은 수행 능력을 보여줌에 따라, 추론 능력이 우수함을 엿볼 수 있습니다. AI 주권을 위한 한국어 LLM의 중요성 본 논문에서는 한국어로 사전 학습된 언어 모델이 얼마나 중요한지 잘 나타내고 있습니다. 앞으로도 한국어 LLM을 개선하기 위한 지속적인 노력이 필요하며, KMMLU가 이러한 발전 과정을 추적하는 데 적합한 유용한 도구로 쓰이길 기대해봅니다. 다양한 언어 모델(LLM)이 탄생하는 이런 격변의 시기에 우리는 더욱 더 AI 주권을 지키기 위해 노력해야 합니다. 소버린 AI를 위한 네이버 클라우드의 노력을 지켜봐주세요! 논문: https://arxiv.org/abs/2402.11548 데이터셋: https://huggingface.co/datasets/HAERAE-HUB/KMMLU
  2. 이제 클로바 스튜디오의 플레이그라운드에서 챗 모드를 통해 HyperCLOVA X 모델을 이용해보실 수 있습니다. HyperCLOVA X 모델을 보다 잘 활용할 수 있는 시스템 프롬프트 이용 가이드(v0.5)를 안내드립니다.
×
×
  • Create New...