Transformer에서 입력 시퀀스의 서로 다른 위치 간 관계를 학습하는 단위. 여러 헤드가 병렬로 동작해서 단어 간 다양한 관계를 동시에 포착한다.
"The cat sat on the mat because it was tired" — 여기서 "it"이 "cat"을 가리킨다는 걸 이해하려면 문장 내 단어 간 관계를 파악해야 한다. 어텐션 메커니즘이 이 역할을 한다. 각 어텐션 헤드는 서로 다른 종류의 관계(문법적 관계, 의미적 관계, 위치 관계 등)를 담당한다. 멀티헤드 어텐션은 이런 헤드를 여러 개 병렬로 운영해서 다양한 관점에서 관계를 학습한다.
Transformer 모델의 헤드 수는 하이퍼파라미터로, GPT-4 같은 대형 모델은 수십 개 헤드를 사용한다. 어텐션 맵을 시각화하면 모델이 특정 단어를 예측할 때 어떤 단어에 집중하는지 볼 수 있어서 설명가능성 연구에 활용된다. 파인튜닝 시 어텐션 레이어만 학습하고 나머지를 동결하는 방식(Adapter, LoRA)으로 학습 비용을 크게 줄일 수 있다.