AI 에이전트가 얼마나 잘 작동하는지 체계적으로 측정하는 방법. 단순 LLM 평가와 달리 다단계 실행, 도구 선택, 목표 달성 여부까지 종합 판단한다.
에이전트 평가는 단순히 답변이 맞는지 보는 것보다 훨씬 복잡하다. 에이전트가 올바른 도구를 선택했는지, 불필요한 단계를 거치지 않았는지, 중간에 잘못된 방향으로 흘렀다가 수정했는지, 최종 목표를 실제로 달성했는지를 모두 평가해야 한다. 에이전트가 올바른 결과를 내더라도 비효율적인 경로로 갔다면 개선이 필요하다.
코드 작성 에이전트를 평가할 때 LangSmith나 Langfuse로 각 실행의 전체 트레이스를 기록하고, 도구 호출 횟수, 총 토큰 사용량, 태스크 성공률, 평균 완료 시간을 지표로 삼는다. 실패 케이스를 모아 실패 분석을 하면 에이전트 프롬프트나 도구 설계의 개선점을 찾을 수 있다.