earticle

논문검색

대규모 언어 모델(LLM)의 포괄적 성능 비교 평가를 위한 평가 지표 및 데이터셋 개발 : 폐쇄형 LLM과 공개형 LLM의 비교를 중심으로

원문정보

Proposing Benchmark Datasets for Comprehensive Evaluation and Comparison of LLMs (Large Language Models) : Comparing Open-source LLMs with Closed-source LLMs

정승호, 김도훈, 박진수

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

The development of large language models (LLMs) has accelerated since OpenAI released GPT-3, which demonstrated generalizability and capability for various downstream tasks, thanks to its 175 billion parameters. Various metrics and datasets for LLM evaluation have been developed to objectively assess LLMs’ performance. Although existing evaluation metrics and datasets have widely been used across various fields, their large scale hinders their use in small organizations or by individuals. Furthermore, there is degree of discrepancy between evaluation results and actual user experiences. The study proposes evaluation metrics and datasets with relatively small amounts of data while reflecting real-world user experiences. In the process of testing the proposed metrics and datasets, the research evaluates and compares four closed-LLMs and six open-LLMs, which are latest as of April 2024. The results show that proposing datasets exhibited trends similar to existing datasets despite its smaller size, and furthermore, well reflected actual user experiences. Moreover, open-LLMs performed similar, or indeed, better than closed-LLMs in simple tasks while closed-LLMs performed significantly better in complex tasks such as mathematics, coding, and vision question-answering.

한국어

2020년 OpenAI가 1,750억 파라미터 규모의 GPT-3를 공개한 이후 간단한 작업부터 복잡한 작업에 이르기까지 다양한 다운스트림 작업에 대응하는 대규모 언어 모델(LLM)의 개발이 가속화되고 있다. LLM이 개발되고 고도화됨에 따라 LLM의 성능을 객관적으로 평가할 수 있는 평가 지표와 데이터셋이 개발되어 활용되고 있다. 이러한 데이터셋은 다양한 분야에 대해 LLM을 객관적으로 평가함에 있어 좋은 성과를 거두었으나, 규모 측면에서 개인이나 소규모 기관에서 활용하기 어렵고 실용적 측면에서 실제 사용자가 체감하는 바와 다소의 괴리를 가지고 있다. 이에 본 연구에서는 사용자의 활용 패턴을 반영하여 비교적 작은 양의 데이터를 활용해 LLM을 평가할 수 있는 평가 지표 및 데이터셋을 제시한다. 더 나아가, 가중치를 일반에 공개하는 공개형 대규모 언어 모델의 개발이 가속화되고 고성능의 공개형 LLM이 출시되고 있음에 따라 연구 수행 시점인 2024년 4월 기준 최신의 폐쇄형 LLM 4종과 공개형 LLM 6종에 대한 평가를 시행하고 폐쇄형 LLM과 공개형 LLM의 비교 평가 결과에 대해 논의한다. 연구 결과 새롭게 개발한 데이터셋이 작은 규모에도 불구하고 기존 데이터셋과 유사한 경향성을 보이는 것으로 나타났다. 상식 추론 및 글 스타일 변환과 같은 간단한 작업에서는 공개형 LLM이 폐쇄형 LLM과 대등하거나 우세한 성능을 보였으나 수학, 코딩, 이미지 질의응답 등의 복잡한 작업에서는 큰 성능 격차를 보임을 확인하였으며, 더 나아가 비교적 작은 규모의 LLM이 규모 대비 좋은 성능을 보임을 확인하였다.

목차

요약
Ⅰ. 서론
Ⅱ. 연구 배경
2.1 대규모 언어 모델 및 대규모 언어 모델벤치마크
2.2 대규모 언어 모델 평가 영역 및 평가 데이터셋
Ⅲ. 연구 설계
3.1 평가 대상 대규모 언어 모델
3.2 평가 지표 및 평가 데이터셋
Ⅳ. 연구 결과
4.1 일반 이해(General Understanding)영역
4.2 추론력(Reasoning) 영역
4.3 장문 텍스트 처리(Long-Context Retrieval) 영역
4.4 외부 정보 우선 활용(Prompt Prioritization) 영역
4.5 글 스타일 변환(Tone Transformation)영역
4.6 코드 생성(Code Generation) 영역
4.7 수학(Mathematics) 영역
4.8 유해 프롬프트 감지(Harmful Prompt Detection) 영역
4.9 다국어 처리(Multilingual Capabilities) 영역
4.10 멀티모달(Multimodal Capabilities) 영역
V. 결론 및 향후 과제
참고문헌
Abstract

저자정보

  • 정승호 Seungho Jeong. 서울대학교 경영학과 박사과정
  • 김도훈 Dohun Kim. 서울대학교 경영학과 박사과정
  • 박진수 Jinsoo Park. 서울대학교 경영학과 교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 6,000원

      0개의 논문이 장바구니에 담겼습니다.