데이터를 한 곳에 모으지 않고 각 기기나 서버에서 로컬로 학습한 뒤 모델 업데이트만 공유하는 분산 학습 방식. 데이터 프라이버시를 보장하면서 AI를 학습시키는 핵심 기술이다.
병원들이 환자 데이터를 한 서버에 모아서 AI를 학습시키면 강력하지만 프라이버시 문제가 생긴다. 연합학습은 반대로 동작한다. 각 병원에서 자체 데이터로 모델을 로컬 학습하고, 가중치 업데이트(기울기)만 중앙 서버로 보내 집계한다. 원본 데이터는 기기 밖으로 나가지 않는다. Google이 Android 키보드의 다음 단어 예측을 수백만 대 기기에서 이 방식으로 학습시킨 것이 대표적 사례다.
PySyft, Flower(flwr) 같은 프레임워크를 쓰면 연합학습 실험을 구현할 수 있다. 의료, 금융, 모바일 앱처럼 민감 데이터가 있고 규제가 엄격한 환경에서 AI를 학습해야 할 때 고려하는 아키텍처다. 실제로는 기울기 자체에도 데이터 정보가 포함될 수 있어서 차등 프라이버시와 함께 쓰는 것이 더 안전하다. 통신 비용(업데이트를 주고받는 비용)이 병목이 되는 경우가 많아 업데이트 압축 기법도 함께 연구된다.