인프라
AI 평가
Evaluation

AI 모델이나 시스템의 성능과 품질을 체계적으로 측정하는 프로세스. "잘 되는 것 같다"가 아니라 수치로 증명하기 위한 과정이다.

평가가 중요한 이유

LLM은 같은 입력에도 다른 출력을 낼 수 있고, 환각도 생성한다. 프롬프트를 바꿨을 때 정말 나아진 건지, 모델을 교체했을 때 성능이 유지되는지를 감이 아니라 데이터로 확인해야 한다.

사용 예시

가장 기본적인 방법은 테스트 케이스를 만들어 두는 것이다. 입력과 기대 출력 쌍을 준비해 두고, 프롬프트나 모델을 바꿀 때마다 돌려 보는 식이다. 결정론적 평가는 정답이 명확한 경우(코드 실행 결과, 분류 정확도), LLM-as-a-Judge는 응답 품질처럼 정답이 모호한 경우에 다른 LLM이 채점한다.

DeepEval, Langfuse, LangSmith 같은 프레임워크를 쓰면 평가를 CI/CD 파이프라인에 통합할 수 있다. 코드를 커밋할 때 테스트를 돌리듯, AI 프롬프트를 변경할 때 자동으로 평가가 돌아가는 구조를 만들 수 있다.

#벤치마크#품질측정
← AI Wiki에서 더 보기