인프라
벤치마크
Benchmark

LLM의 성능을 객관적으로 측정하고 비교하기 위한 표준화된 테스트 세트. MMLU, HumanEval, MATH 등이 대표적이며 모델 선택의 기준이 된다.

개념 설명

AI 모델이 넘쳐나는 시대에 "어떤 모델이 더 좋은가?"를 객관적으로 판단하려면 기준이 필요하다. 벤치마크는 광범위한 문제를 모아놓은 표준 시험이다. 지식 이해를 보는 MMLU, 코딩 능력의 HumanEval, 수학 추론의 MATH, 대화 품질의 MT-Bench 등 측정하려는 능력별로 다양한 벤치마크가 존재한다.

문제는 모델들이 특정 벤치마크에 과적합되어 실제 성능과 괴리가 생기는 벤치마크 오염(contamination)이다. 학습 데이터에 테스트 문제가 포함되거나 벤치마크를 기준으로 모델을 튜닝하면 점수는 높지만 실제로는 그만큼 잘하지 못한다.

사용 예시

새 모델을 도입하기 전에 실제 업무와 유사한 태스크로 구성된 내부 벤치마크를 만들어 후보 모델들을 직접 평가하는 것이 가장 신뢰할 수 있다. LM-Eval-Harness, Eleuther AI의 평가 도구로 표준 벤치마크를 일괄 실행할 수 있다.

#평가#MMLU#성능측정
← AI Wiki에서 더 보기