모델
파라미터
Model Parameters

신경망 학습을 통해 결정되는 가중치와 편향 값의 총칭. 파라미터 수가 모델의 "크기"를 나타내며, GPT-4는 수천억 개의 파라미터를 가진 것으로 추정된다.

개념 설명

신경망의 각 연결은 가중치(weight)라는 숫자를 가지고 있다. 이 가중치들이 모두 파라미터다. 학습 전에는 랜덤한 값으로 초기화되고, 역전파와 경사 하강법을 통해 데이터에 맞는 최적값으로 조정된다. 파라미터가 많을수록 더 복잡한 패턴을 학습할 수 있지만, 학습에 더 많은 데이터와 연산이 필요하고 메모리도 많이 쓴다.

사용 예시

모델을 선택할 때 파라미터 수는 중요한 고려 요소다. 70B 파라미터 모델은 A100 GPU 여러 장이 필요하지만, 7B 모델은 소비자용 GPU에서도 돌아간다. 양자화(Quantization)는 파라미터를 더 낮은 정밀도(FP16, INT8, INT4)로 변환해서 메모리 사용량을 줄이는 기법이다. API로 쓸 때는 직접 신경 쓸 필요 없지만, 온프레미스 배포나 파인튜닝을 고려할 때는 파라미터 수와 메모리 요구량을 반드시 확인해야 한다.

#모델크기#가중치#스케일
← AI Wiki에서 더 보기