사람의 말을 텍스트로 변환하는 AI 기술. OpenAI Whisper 이후 정확도가 크게 높아졌고, 다국어 지원과 잡음 처리 성능도 실용 수준에 도달했다.
음성 인식(ASR, Automatic Speech Recognition)은 오디오 신호에서 단어를 추출하는 기술이다. Transformer 아키텍처가 이 분야에도 혁명을 일으켰는데, OpenAI의 Whisper 모델은 68만 시간의 다국어 오디오 데이터로 학습해서 잡음이 많은 환경에서도 높은 정확도를 보인다. 실시간 전사와 파일 기반 일괄 처리 두 가지 모드로 쓰인다.
회의 녹음을 텍스트로 변환해서 요약 AI에 넘기거나, 고객 상담 전화를 전사해서 분석하는 파이프라인을 만들 때 Whisper API나 Deepgram을 쓴다. 실시간 자막이 필요한 화상회의 앱에는 스트리밍 STT API를 쓰는데, AssemblyAI나 Google Speech-to-Text의 스트리밍 모드가 적합하다. whisper-1 모델은 OpenAI API에서 직접 쓸 수 있어 프로토타입에 빠르게 통합하기 좋다.