시퀀스를 선형 시간에 처리하는 모델 아키텍처. Transformer의 이차 복잡도 어텐션을 대체할 수 있는 구조로, 긴 시퀀스 처리에서 특히 효율적이다.
Transformer의 Self-Attention은 시퀀스 길이의 제곱에 비례하는 계산이 필요하다. 시퀀스가 두 배 길어지면 계산량이 네 배 늘어난다. 상태 공간 모델(SSM)은 은닉 상태를 유지하며 시퀀스를 선형 시간으로 처리하는 대안이다. 신호 처리에서 온 개념을 신경망에 적용한 것이다.
2023년 등장한 Mamba가 가장 주목받는 SSM이다. 입력에 따라 상태 전이 행렬을 동적으로 변경하는 선택적 상태 공간 메커니즘을 도입해 어텐션 없이도 좋은 성능을 보였다. Transformer와 Mamba를 결합한 하이브리드 아키텍처도 활발히 연구 중이다.
생체 신호, 오디오, 긴 코드 시퀀스처럼 매우 긴 시퀀스를 처리하는 태스크에서 Mamba 기반 모델을 실험해볼 수 있다. HuggingFace에 Mamba-2 등의 구현체가 공개되어 있다. 아직 Transformer 대비 생태계가 작지만 롱 컨텍스트 효율에서의 강점으로 주목받는다.