데이터
데이터 레이블링
Data Labeling

학습 데이터에 정답이나 메타데이터를 붙이는 작업. RLHF의 선호 데이터, SFT의 응답 데이터 등 LLM 정렬과 파인튜닝의 품질을 결정하는 핵심 작업이다.

개념 설명

AI 모델이 올바르게 동작하려면 사람이 "이게 좋은 답이고, 저게 나쁜 답이다"를 가르쳐 줘야 한다. 이 과정이 데이터 레이블링이다. RLHF에서는 두 응답 중 어느 게 더 좋은지 사람이 비교 평가하고, SFT에서는 이상적인 응답을 직접 작성한다. 레이블 품질이 모델 품질을 결정한다. 고품질 소량 데이터가 저품질 대량 데이터보다 나은 경우가 많다.

Scale AI, Surge AI 같은 전문 레이블링 회사와 크라우드소싱 플랫폼이 이 역할을 맡는다. 최근에는 LLM으로 초안을 작성하고 사람이 검토·수정하는 Human-in-the-Loop 방식이 효율적인 대안으로 자리잡았다.

사용 예시

Label Studio 같은 오픈소스 도구로 사내 레이블링 파이프라인을 구성할 수 있다. LLM이 생성한 응답 후보 여러 개를 평가자에게 보여주고 순위를 매기게 하는 인터페이스를 만들면, 소규모로도 RLHF 선호 데이터를 수집할 수 있다.

#어노테이션#RLHF#품질
← AI Wiki에서 더 보기