손실 함수를 최소화하기 위해 기울기(gradient) 반대 방향으로 파라미터를 조금씩 조정하는 최적화 알고리즘. AI 학습의 근본 메커니즘이다.
산에서 눈을 감고 가장 낮은 곳으로 내려가려면 발밑의 경사를 느끼고 아래 방향으로 걸으면 된다. 경사 하강법이 이와 같다. 손실 함수라는 지형에서 가장 낮은 점(최솟값)을 찾는데, 현재 위치에서 기울기를 계산해 반대 방향으로 조금씩 이동한다. 학습률(learning rate)은 한 번에 이동하는 보폭이다 — 너무 크면 최솟값을 지나치고, 너무 작으면 너무 오래 걸린다.
PyTorch나 TensorFlow에서 모델을 학습할 때 optimizer.step()을 호출하면 경사 하강법이 실행된다. 실제로는 전체 데이터 대신 미니배치(작은 샘플 묶음)를 쓰는 미니배치 SGD가 표준이다. Adam, AdamW, Lion 같은 옵티마이저는 경사 하강법을 개선한 알고리즘으로, 학습률을 적응적으로 조정해서 수렴 속도를 높인다. LLM 파인튜닝에서는 AdamW가 사실상 표준이다.