Kokoro TTS (Kokoro Text-to-Speech)

모델

Kokoro TTS

Kokoro Text-to-Speech

82M 파라미터만으로 대형 모델 수준의 자연스러운 음성을 합성하는 초경량 오픈소스 TTS 모델. 로컬 환경에서도 실시간보다 빠르게 돌아가서, 온디바이스 음성 합성의 가능성을 열었다.

Kokoro TTS란

텍스트를 사람처럼 자연스러운 음성으로 바꿔주는 모델인데, 놀라운 점은 크기다. 파라미터가 8,200만 개밖에 안 된다. MetaVoice 12억, XTTS 4.7억 파라미터인데 Kokoro는 그 모델들보다 자연스러움 평가에서 더 높은 점수를 받았다. TTS Arena 벤치마크에서 1위를 기록했을 정도다. 비결은 StyleTTS 2와 ISTFTNet 기반의 디코더 전용 아키텍처로, 디퓨전이나 인코더 없이 가볍고 빠른 추론을 가능하게 한 설계에 있다.

사용 예시

로컬에서 직접 돌리는 게 핵심 사용법이다. pip install kokoro로 설치하고, Hugging Face에서 체크포인트를 받아 Python 몇 줄이면 음성을 생성할 수 있다. GPU에서는 실시간의 약 100배 속도로 생성되고, CPU에서도 실용적인 속도가 나온다.

kokoro-fastapi 프로젝트를 쓰면 OpenAI TTS API와 호환되는 엔드포인트를 로컬에 띄울 수 있다. 기존에 OpenAI TTS를 쓰던 앱에서 엔드포인트만 바꾸면 비용 없이 로컬 TTS로 전환된다. 영어, 프랑스어, 일본어, 한국어 등 8개 언어, 48가지 음성을 지원한다.

주의할 점

한국어는 아직 영어만큼 완벽하지 않다. 억양이 원어민 수준에는 못 미친다. Apache 2.0 라이선스라 상업적 사용에 제약이 없다.

#TTS#온디바이스#오픈소스

← AI Wiki에서 더 보기