디퓨전 모델 (Diffusion Model)

모델

디퓨전 모델

Diffusion Model

노이즈를 점진적으로 제거하는 과정을 학습해 이미지·음성·영상을 생성하는 모델. Stable Diffusion, DALL-E 3, Sora 등 현재 생성 AI의 주류 아키텍처다.

개념 설명

사진에 조금씩 노이즈를 추가하면 결국 완전한 잡음이 된다. 디퓨전 모델은 이 과정을 거꾸로 배운다. 완전한 잡음에서 시작해 조금씩 노이즈를 제거하며 원본을 복원하는 것이다. "고양이 사진"이라는 텍스트 조건을 추가하면 잡음을 고양이 방향으로 제거해 이미지를 생성한다.

사용 예시

Stable Diffusion을 API나 로컬로 호출할 때 num_inference_steps가 노이즈 제거 단계 수다. 단계가 많을수록 품질이 높지만 느려진다. LoRA 같은 파인튜닝 기법으로 특정 화풍이나 캐릭터를 학습시켜 커스텀 이미지 생성기를 만드는 것도 가능하다.

#이미지생성#DALL-E#Stable Diffusion

← AI Wiki에서 더 보기