모델
트랜스포머
Transformer

2017년 구글이 발표한 셀프 어텐션 기반 신경망 아키텍처. 현재 GPT, Claude, Gemini 등 모든 LLM의 근간이다.

트랜스포머란

2017년 구글의 Attention Is All You Need 논문에서 소개됐다. 이전의 신경망(RNN)은 텍스트를 순서대로 한 단어씩 처리해야 했다. 문장이 길어지면 앞부분을 잊고, 병렬 처리도 불가능했다. 트랜스포머는 셀프 어텐션으로 입력 전체를 한꺼번에 보면서 각 단어가 다른 모든 단어와 어떤 관계인지를 동시에 계산한다.

왜 알아야 하나

GPT, Claude, Gemini, Llama — 현재 쓰는 모든 LLM이 트랜스포머 기반이다. 컨텍스트 윈도우 제한, 토큰 비용, 긴 문서에서의 "Lost in the Middle" 현상 같은 실무적 한계도 트랜스포머의 구조에서 비롯된다. 이 아키텍처를 이해하면 왜 프롬프트를 이렇게 짜야 하는지, 왜 비용이 토큰 수에 비례하는지가 명확해진다.

#아키텍처#attention
← AI Wiki에서 더 보기