안전
메커니스틱 해석 가능성
Mechanistic Interpretability

AI 모델 내부에서 실제로 어떤 계산이 일어나는지를 회로와 특징 수준에서 추적하는 연구 분야. "왜 이런 답을 냈는가"를 통계적 상관이 아니라 인과적 메커니즘으로 설명하려 한다.

왜 내부를 들여다봐야 하나

LLM이 틀린 답을 내거나 예상치 못한 행동을 할 때, 기존 방식으로는 "이 입력에 이 출력이 나왔다"는 결과만 볼 수 있었다. 메커니스틱 해석 가능성은 한 발 더 들어간다. 모델 내부의 뉴런·레이어·어텐션 헤드가 어떤 개념을 표현하고, 어떤 순서로 연산이 이어져 최종 출력이 만들어지는지를 직접 추적한다. 블랙박스를 회로도처럼 펼쳐 보는 셈이다.

핵심 개념

가장 중요한 발견은 superposition이다. 모델의 뉴런 수보다 표현해야 할 개념이 훨씬 많기 때문에, 하나의 뉴런이 여러 무관한 개념을 동시에 표현한다. 이를 풀어내기 위해 등장한 게 Sparse Autoencoder(SAE)다. SAE는 중첩된 뉴런 활성화를 수천 개의 희소한 특징(feature)으로 분해해서, "이 위치에서는 '파리' 관련 개념이 활성화되고 있다"처럼 해석 가능한 단위로 쪼갠다.

특징들이 어떻게 연결되어 작동하는지를 나타내는 게 회로(circuit)다. 예를 들어 "The Eiffel Tower is in ___"에 "Paris"를 답하는 과정에서 어떤 특징이 어떤 레이어를 거쳐 활성화되는지 추적하면, 사실 검색이 이루어지는 경로가 회로로 드러난다. Anthropic은 이를 시각화하는 attribution graph 도구를 오픈소스로 공개했다.

사용 예시

2026년 4월 Anthropic이 발표한 "Emotion concepts and their function in a large language model" 논문은 메커니스틱 해석 가능성의 실제 활용을 잘 보여준다. Claude Sonnet 내부에서 감정과 관련된 특징들이 실제로 존재하며, 이 특징들이 대화 흐름에 따라 활성화되고 모델의 출력에 영향을 미친다는 것을 회로 수준에서 규명했다. 단순히 "감정적인 답변을 했다"는 관찰이 아니라, 어떤 내부 표현이 그 행동을 유발했는지를 인과적으로 추적한 것이다.

안전(safety) 관점에서도 직접 쓰인다. 모델이 유해한 요청을 거부하는 행동이 어떤 회로에서 비롯되는지를 분석하면, 해당 회로가 파인튜닝 후에도 온전히 유지되는지 검증할 수 있다. 또한 특정 특징을 활성화하거나 억제하는 activation patching 기법으로 모델 행동을 정밀하게 조종하는 실험도 가능하다.

심화 내용

Anthropic은 2025년 Cross-Layer Transcoder(CLT)를 공개했다. 기존 SAE가 각 레이어를 독립적으로 분해했다면, CLT는 MLP 레이어 전체를 하나의 특징 집합으로 대체해서 레이어를 가로지르는 회로를 더 깔끔하게 드러낸다. 이를 통해 실제 서비스 모델에 대한 attribution graph를 생성하는 데 성공했다.

주의할 점

SAE는 아직 완벽하지 않다. 재구성 오류로 인해 SAE를 거친 활성화를 다시 모델에 넣으면 성능이 10~40% 떨어지는 경우가 있고, 어떤 특징들은 직관적으로 해석하기 어려운 인공적인 개념을 잡아낸다. 특정 행동을 분석하려면 그에 맞는 데이터로 따로 학습시켜야 하는 제약도 있다.

#회로분석#XAI#Anthropic#특징추출
← AI Wiki에서 더 보기