OpenAI가 공개한 범용 음성 인식 모델. 68만 시간의 다국어 데이터로 학습되어 잡음 환경에서도 높은 정확도를 보이며, 음성→텍스트 변환의 사실상 표준이 됐다.
Whisper 이전의 음성 인식은 언어별로 모델을 따로 만들거나, 특정 환경에서만 잘 작동하는 경우가 많았다. Whisper는 인터넷에서 수집한 68만 시간의 다국어 오디오를 Transformer로 학습해 99개 언어를 하나의 모델로 처리한다. 잡음이 많은 환경, 억양이 강한 발화에서도 견고하게 작동한다.
OpenAI API의 whisper-1 모델로 오디오 파일을 전사하거나, 오픈소스 Whisper를 로컬에서 실행할 수 있다. faster-whisper는 CTranslate2로 최적화해 4배 빠르게 돌아간다. 회의 녹음 전사, 유튜브 자막 생성, 음성 명령 인식 파이프라인의 첫 단계로 널리 쓰인다. Whispree처럼 STT 결과를 LLM으로 교정하는 조합도 트렌드다.