Cohere Transcribe가 Whisper를 꺾었다, 오픈소스 음성 인식의 새 판이 열렸다
Cohere의 2B 파라미터 오픈소스 ASR 모델이 WER 5.42%로 HuggingFace 리더보드 1위를 차지했습니다. Apache 2.0 라이선스에 한국어 포함 14개 언어를 지원하며 Whisper 이후 3년간의 공백을 깨뜨렸습니다.
OpenAI가 Whisper를 공개한 것이 2022년 9월입니다. 그로부터 3년 반, 오픈소스 음성 인식(ASR) 분야에서 Whisper의 아성을 넘어서는 모델이 드디어 등장했습니다. 3월 26일, 엔터프라이즈 AI 기업 Cohere가 자사 최초의 음성 모델 Cohere Transcribe를 Apache 2.0 라이선스로 공개했습니다. HuggingFace Open ASR Leaderboard에서 평균 WER(Word Error Rate) 5.42%를 기록하며 1위를 차지했고, 인간 평가에서도 경쟁 모델 대비 평균 61%의 승률을 보였습니다.
숫자만 보면 압도적입니다. 하지만 벤치마크 1위라는 타이틀 뒤에는 타임스탬프와 화자 분리를 지원하지 않는 한계, 특수 도메인에서의 성능 저하, 그리고 "벤치마크와 실무는 다르다"는 커뮤니티의 냉정한 목소리가 공존합니다. Cohere Transcribe가 실제로 무엇을 바꿀 수 있는지, 무엇이 아직 부족한지 함께 살펴보겠습니다.
Whisper 이후 3년, 공백이 만든 기회
2022년 Whisper의 등장은 음성 인식의 민주화를 상징하는 사건이었습니다. MIT 라이선스로 공개된 이 모델은 99개 이상의 언어를 지원했고, 누구나 로컬에서 돌릴 수 있었습니다. 개발자들은 Whisper를 회의록 자동 생성, 팟캐스트 자막, 콜센터 분석 등 다양한 곳에 적용했습니다.
문제는 그 이후입니다. OpenAI는 Whisper Large v3를 2023년 11월에 내놓은 뒤 사실상 업데이트를 중단했습니다. GPT-4와 DALL-E에 리소스가 집중되면서, ASR은 OpenAI의 우선순위에서 밀려났습니다. 그 사이 음성 인식 시장은 빠르게 변했습니다.
상용 ASR 서비스의 약진이 두드러졌습니다. AssemblyAI의 Universal-1, Deepgram의 Nova-2, Google의 Chirp 등이 실시간 스트리밍, 화자 분리, 커스텀 어휘 같은 프로덕션 필수 기능을 갖추고 엔터프라이즈 시장을 공략했습니다. 반면 오픈소스 진영은 Whisper에 의존하는 상황이 계속되었습니다. Distil-Whisper 같은 경량화 시도가 있었지만, 근본적인 성능 도약은 아니었습니다.
이 공백을 노린 플레이어들이 2025년 말부터 등장하기 시작했습니다. NVIDIA의 Canary/Parakeet 시리즈, Alibaba의 Qwen3-ASR, IBM의 Granite Speech가 속속 리더보드에 이름을 올렸습니다. 그리고 2026년 3월, Cohere가 그 경쟁의 정점을 찍었습니다.
핵심 분석: 무엇이 5.42%를 만들었나
인코더에 90%를 몰아넣은 설계 철학
Cohere Transcribe의 아키텍처는 "2B encoder-decoder X-attention transformer with Fast-Conformer encoder"입니다. 핵심은 파라미터의 90% 이상을 인코더에 집중시킨 비대칭 설계입니다.
이 선택의 논리는 명확합니다. ASR에서 가장 어려운 작업은 음향 신호를 정확한 표현으로 변환하는 것입니다. 이 작업은 인코더가 담당합니다. 반면 인코더가 추출한 표현을 텍스트 토큰으로 변환하는 디코더의 역할은 상대적으로 단순합니다. 인코더를 대형 Fast-Conformer로 구성하고 디코더를 경량 Transformer로 설계함으로써, 정확도와 추론 속도를 동시에 잡겠다는 전략입니다.
이는 최근 경쟁 모델들의 접근법과 대조적입니다. Qwen3-ASR이나 IBM Granite Speech는 사전 훈련된 텍스트 LLM 위에 음성 인코더를 얹는 방식을 택했습니다. 기존 LLM의 언어 이해 능력을 활용할 수 있다는 장점이 있지만, 디코더가 무거워져 추론 속도가 느려지는 트레이드오프가 발생합니다. Cohere는 처음부터(from scratch) 전용 ASR로 설계하는 길을 선택했습니다.
훈련 데이터는 50만 시간의 큐레이션된 오디오-트랜스크립트 쌍입니다. 에러 분석 후 취약 영역에 합성 데이터를 추가하는 증강 전략, SNR 0~30dB 범위의 배경 소음 증강, 16k multilingual BPE 토크나이저 등이 적용되었습니다.
벤치마크: 1위이되, 압도적이지는 않다
HuggingFace Open ASR Leaderboard의 결과를 자세히 들여다볼 필요가 있습니다.
1위(Cohere)와 2위(Zoom Scribe v1)의 차이는 단 0.05%p. 상위권은 극도로 밀집되어 있습니다.
Cohere Transcribe의 평균 WER 5.42%는 분명 1위입니다. 하지만 2위 Zoom Scribe v1(5.47%)과의 차이는 0.05%p에 불과합니다. 3위 IBM Granite 4.0 1B Speech(5.52%)와도 0.1%p밖에 나지 않습니다. 리더보드 상위권이 극도로 밀집되어 있다는 뜻입니다.
개별 데이터셋별로 보면 그림이 달라집니다. LibriSpeech Clean에서 1.25%로 압도적 1위를 기록했지만, SPGISpeech에서는 3.08%로 Zoom Scribe v1의 1.59%에 크게 뒤집니다. 금융 수익 발표 콜을 다루는 Earnings22에서도 10.84%로 IBM Granite(8.48%)보다 2%p 이상 높습니다. 반면 Whisper Large v3(7.44%)와 비교하면 약 27% 낮은 WER로, 세대 차이는 분명합니다.
한마디로, Cohere Transcribe는 "모든 영역에서 압도적 1위"가 아니라 "평균적으로 가장 우수한" 모델입니다. 특정 도메인에서는 다른 모델이 더 나은 성능을 보일 수 있습니다.
인간 평가: 벤치마크보다 설득력 있는 숫자
자동화된 WER 메트릭보다 주목할 만한 것은 인간 평가 결과입니다. 영어 head-to-head 선호도 비교에서 Cohere Transcribe는 평균 61%의 승률을 기록했습니다.
구체적으로 보면, IBM Granite 대비 78%, NVIDIA Canary Qwen 대비 67%, Whisper Large v3 대비 64%, 가장 근접한 경쟁자인 Zoom Scribe v1 대비 56%의 승률을 보였습니다. 평가 기준은 의미 보존 정확도, 환각 회피, 고유명사 정확성, 포맷팅 적절성이었습니다.
다국어에서도 일본어 70%, 이탈리아어 60% 등 경쟁력 있는 결과를 보여주었습니다. Cohere 측은 이 결과를 두고 다음과 같이 평가했습니다.
"자동화된 메트릭과 인간 판단 사이의 일관성은, 모델의 개선이 통제된 벤치마크를 넘어 실용적인 전사 환경에서도 유효함을 시사합니다."
(원문: "The consistency between automated metrics and human judgments suggests that the model's improvements translate beyond controlled benchmarks to practical transcription settings.")
처리 속도: 525분의 오디오를 1분에
성능 못지않게 인상적인 것은 속도입니다. Cohere는 525분의 오디오를 1분에 처리할 수 있다고 밝혔습니다(RTFx ~525x). 1B 이상 파라미터 모델 중 최고 수준의 처리량이며, 유사 크기 경쟁 모델 대비 3배 높은 처리량을 보입니다.
이는 앞서 설명한 경량 디코더 설계의 직접적 결과입니다. 오토리그레시브 추론 연산이 적을수록 같은 하드웨어에서 더 많은 오디오를 처리할 수 있습니다. 여기에 vLLM 최적화를 적용하면 추가 2배의 처리량 향상이 가능합니다.
Cohere 팀은 이 최적화를 vLLM 프로젝트에 직접 기여했습니다. 기존 vLLM의 encoder-decoder 지원이 가변 길이 오디오 입력에서 고정 길이 패딩으로 인해 GPU 활용률이 떨어지는 문제가 있었는데, 스케줄러를 재설계하고 FlashAttention 기반 packed representation 변환을 구현하여 해결했습니다.
Cohere가 말하는 Pareto frontier 개념이 여기서 등장합니다. 기존 모델들은 정확도를 높이면 속도가 떨어지고, 속도를 높이면 정확도가 떨어지는 트레이드오프에 갇혀 있었습니다. Cohere Transcribe는 이 한계선을 확장했다는 것이 Cohere의 주장입니다.
실무 영향: 누가, 어떻게 쓸 수 있나
셀프호스팅과 데이터 프라이버시
Cohere Transcribe의 가장 직접적인 실무 가치는 셀프호스팅입니다. 2B 파라미터는 VRAM 8~16GB급 소비자 GPU에서 구동 가능한 수준이며, 다양한 런타임을 지원합니다. Python의 transformers, 서버 배포를 위한 vLLM, Mac용 mlx-audio, Rust 바인딩, 심지어 WebGPU를 통한 브라우저 내 실행까지 가능합니다.
이는 데이터 프라이버시가 중요한 환경에서 특히 의미가 있습니다. 음성 데이터는 본질적으로 민감합니다. 회의 녹음, 고객 통화, 의료 상담 등을 외부 API로 전송하는 것은 많은 기업에서 보안 정책과 충돌합니다. Hacker News 사용자 ramon156의 말처럼 "미국 회사에 회의 데이터를 보내는 것이 걱정"되는 상황에서, 셀프호스팅 가능한 고성능 ASR 모델의 등장은 반가운 소식입니다.
기본적인 사용법은 transformers 라이브러리로 몇 줄이면 됩니다.
from transformers import AutoProcessor, CohereAsrForConditionalGeneration
processor = AutoProcessor.from_pretrained("CohereLabs/cohere-transcribe-03-2026")
model = CohereAsrForConditionalGeneration.from_pretrained(
"CohereLabs/cohere-transcribe-03-2026",
device_map="auto"
)
프로덕션 서빙은 vLLM 한 줄로 시작할 수 있습니다.
vllm serve CohereLabs/cohere-transcribe-03-2026 --trust-remote-code
다만 transformers 5.4.0 이상이 필요하며, 5.0~5.2 버전에서는 trust-remote-code 모드로 우회해야 합니다.
한국어 지원, 기대와 현실
14개 지원 언어에 한국어가 포함되어 있다는 점은 국내 개발자에게 주목할 만합니다. 오픈소스 ASR 중 한국어를 공식 지원하는 모델은 많지 않습니다. Whisper가 한국어를 지원하긴 하지만 정확도가 높지 않은 편이었습니다.
다만 기대를 조절할 필요는 있습니다. 다국어 리더보드에서 Cohere Transcribe는 4위(오픈소스 중 2위)를 기록했습니다. 영어에서의 압도적 1위와는 온도 차이가 있습니다. 한국어 단독 성능에 대해서는 추가 검증이 필요합니다. 콜센터 분석, 회의록 자동 생성, 미디어 자막 등에 적용하려면 자체 테스트를 거치는 것이 현명합니다.
North 플랫폼 통합과 Cohere의 큰 그림
Cohere Transcribe는 독립 모델이 아니라 Cohere의 엔터프라이즈 전략의 한 조각입니다. Cohere는 OpenAI나 Anthropic과 달리 B2B에 집중하는 엔터프라이즈 AI 기업으로, Command(텍스트 생성), Embed(임베딩), Rerank(검색 재순위), North(에이전트 오케스트레이션) 등의 제품 라인업을 갖추고 있습니다. Transcribe는 Cohere 최초의 음성 모델로, 텍스트 중심에서 멀티모달로의 확장을 의미합니다.
Cohere 공식 블로그는 향후 계획을 다음과 같이 밝혔습니다.
"Transcribe는 고정확도 전사 모델에서 엔터프라이즈 음성 인텔리전스를 위한 더 넓은 기반으로 진화할 것입니다."
(원문: "Transcribe will evolve from a high-accuracy transcription model into a broader foundation for enterprise speech intelligence.")
North 플랫폼에 통합되면 콜센터 통화의 실시간 전사 후 에이전트가 분석하고 응답하는 워크플로우, 회의 녹음에서 액션 아이템을 자동 추출하는 파이프라인 등이 가능해집니다. 오픈소스로 모델을 공개해 커뮤니티 채택을 확보한 뒤, 프로덕션 전환 시 Model Vault(유료)로 수익화하는 전형적인 오픈코어 전략입니다.
커뮤니티 반응: 인상적이나, 아직 갈 길이 멀다
Hacker News 토론에서 커뮤니티의 반응은 "벤치마크는 인상적이지만, 프로덕션에 쓰기엔 빠진 것이 많다"는 방향으로 수렴했습니다.
긍정적 평가
서비스 안정성에 대한 신뢰는 높았습니다. 기존 Cohere 사용자인 geooff_는 이렇게 평가했습니다.
"가장 깨끗하고 안정적인 P50을 가진 외부 서비스다."
(원문: "the most crisp, steady P50 of any external service")
Whisper Memos 앱에 이미 통합을 완료한 Void_는 "정확하고 빠르다"고 짧게 평했습니다. Radical Ventures의 Paige Dickie도 속도에 주목했습니다.
"속도가 뛰어납니다. 수 분의 오디오를 수 초 만에 사용 가능한 트랜스크립트로 변환합니다."
(원문: "The speed is exceptional — turning minutes of audio into usable transcripts in seconds.")
프로덕션 기능의 부재
가장 많이 지적된 것은 타임스탬프와 화자 분리(diarization) 미지원입니다. gruez가 이 점을 정면으로 지적했고, nodja는 게이밍 VOD 전사 용도로 "타임스탬프, 겹치는 화자, 비언어 마커, 10k+ 단어 컨텍스트 주입이 필요하다"며 현재 모델로는 부족함을 밝혔습니다.
커스텀 어휘와 워드 부스팅의 부재도 문제로 지적되었습니다. _medihack_과 Bolwin은 경쟁사 대부분이 제공하는 이 기능이 없으면 전문 용어가 많은 도메인에서 실용성이 떨어진다고 비판했습니다.
정리하면, Cohere Transcribe가 지원하지 않는 주요 기능은 다음과 같습니다.
- 타임스탬프: 경쟁 모델인 Whisper, ElevenLabs Scribe, NVIDIA Canary가 모두 지원
- 화자 분리: ElevenLabs Scribe, AssemblyAI, Deepgram 등 상용 서비스가 지원
- 언어 자동 감지: ISO 639-1 코드를 미리 지정해야 함
- 코드스위칭: 혼합 언어 오디오에서 비일관적 결과
- 커스텀 어휘/워드 부스팅: 전문 도메인 적용 시 걸림돌
- 실시간 스트리밍: 배치 처리만 가능, 실시간 전사 불가
벤치마크와 현실의 괴리
가장 흥미로운 논점은 벤치마크 성능과 실무 성능의 격차였습니다. mnbbrown이 영국 우편번호 250개를 녹음해 여러 ASR 서비스를 테스트한 결과가 이를 잘 보여줍니다.
벤치마크 1위 ≠ 모든 도메인 1위. HuggingFace 리더보드 1위 모델이 특수 도메인 테스트에서 최하위를 기록했습니다. 실무 적용 전 자체 도메인 테스트가 필수입니다.
HuggingFace 리더보드 1위인 Cohere가 이 테스트에서는 59.7%로 최하위를 기록했습니다. 물론 영국 우편번호라는 매우 특수한 도메인이지만, 벤치마크 수치만으로 실무 성능을 판단하는 것이 위험하다는 것을 명확히 보여주는 사례입니다.
yorwba는 이 맥락에서 중요한 지적을 했습니다.
"더 낫다는 것은 벤치마크만의 문제가 아닙니다. 안전한 실패가 중요합니다."
(원문: "better isn't just about benchmarks—safe failure matters.")
불확실한 입력에 대해 추측하지 않고 플래그를 다는 것, 즉 "틀리느니 모른다고 말하는" 능력이 프로덕션 환경에서는 더 중요할 수 있다는 의미입니다. progbits도 ASR의 "과잉 교정" 문제를 지적했습니다. 맞는 단어를 낮은 확률로 인식하여 더 흔한 단어로 대체하는 현상인데, 이는 WER로 잡히지 않는 종류의 오류입니다.
ASR의 미래에 대한 논쟁
더 거시적인 논쟁도 있었습니다. dinakernel은 "멀티모달 LLM이 OCR을 집어삼킨 것처럼 ASR도 결국 범용 모델에 흡수될 것"이라는 전망을 내놓았습니다. GPT-4o나 Gemini 같은 모델이 음성을 네이티브로 이해하는 시대에, 전용 ASR 모델이 독립적 가치를 유지할 수 있을까요?
반대 의견도 있었습니다. 전용 ASR은 처리 속도, 비용 효율성, 셀프호스팅 용이성에서 범용 LLM과 경쟁할 수 있다는 것입니다. 525분의 오디오를 1분에 처리하는 RTFx 수준은 범용 멀티모달 모델로는 달성하기 어렵습니다. 적어도 현재 시점에서는, 대량 배치 전사 작업에서 전용 ASR의 경제성은 분명합니다.
kieloo는 비모국어 악센트 처리에서의 근본적 한계도 언급했습니다.
"Whisper 기반 모델은 이해하지 못하면 환각한다."
(원문: "whisper-based models...hallucinate when they misunderstand.")
Cohere Transcribe가 이 문제에서 얼마나 진전을 이루었는지는 추가 검증이 필요합니다. 침묵 구간에서 텍스트를 생성하려는 경향(환각)이 알려진 한계 중 하나이기 때문입니다.
전망과 시사점
오픈소스 ASR의 세대 교체, 그러나 전환은 점진적
Cohere Transcribe의 등장은 오픈소스 ASR 시장에서 Whisper 이후 처음으로 의미 있는 세대 교체가 시작되었음을 알립니다. WER 5.42%라는 수치 자체보다, Whisper 독주 체제에 균열이 생겼다는 점이 더 중요합니다. IBM Granite Speech, NVIDIA Canary, Qwen3-ASR, 그리고 이제 Cohere Transcribe까지 다수의 경쟁 모델이 Whisper를 넘어서며 건강한 경쟁 구도가 형성되고 있습니다.
그러나 Whisper를 프로덕션에서 당장 교체하라고 말하기는 어렵습니다. 세 가지 이유가 있습니다.
첫째, 기능의 격차입니다. 타임스탬프, 화자 분리, 언어 자동 감지, 커스텀 어휘 등 Cohere Transcribe가 지원하지 않는 기능들은 많은 프로덕션 환경에서 필수입니다. Cohere가 이 기능들을 언제 추가할지는 아직 불투명합니다.
둘째, 다국어 범위입니다. Whisper는 99개 이상의 언어를 지원합니다. Cohere Transcribe는 14개입니다. 다국어 서비스를 운영하는 기업에게 이 차이는 결정적입니다.
셋째, 생태계의 성숙도입니다. Whisper는 3년간 축적된 커뮤니티 도구, 래퍼, 파이프라인이 있습니다. faster-whisper, whisper.cpp, WhisperX 등 다양한 변형이 특정 요구에 맞게 최적화되어 있습니다. Cohere Transcribe의 생태계는 이제 시작입니다.
벤치마크를 넘어서는 진짜 싸움
이번 사건이 던지는 가장 큰 질문은 이것입니다. 벤치마크 1위가 실무 최고를 의미하는가?
영국 우편번호 테스트에서 최하위를 기록한 사례, 환각과 과잉 교정 문제, 침묵 구간 처리의 한계는 모두 같은 방향을 가리킵니다. 리더보드 순위만으로 ASR 모델을 선택하는 것은 위험합니다. 자신의 도메인 데이터로 직접 테스트하고, 자신의 유스케이스에 필요한 기능(타임스탬프, 화자 분리, 스트리밍 등)이 지원되는지 확인하는 것이 먼저입니다.
Cohere의 다음 수
Cohere가 Transcribe를 North 플랫폼에 통합하고, 타임스탬프와 화자 분리를 추가하며, 지원 언어를 확장하는 로드맵을 얼마나 빠르게 실행하는지가 관건입니다. 현재의 벤치마크 1위는 출발점이지 도착점이 아닙니다.
오픈소스 전략의 성패도 지켜볼 포인트입니다. Apache 2.0 라이선스로 모델을 공개해 개발자 생태계를 확보하고, 프로덕션 전환 시 유료 서비스로 연결하는 오픈코어 모델이 ASR 시장에서 통할지는 아직 미지수입니다. 경쟁사인 ElevenLabs나 AssemblyAI는 폐쇄형 모델로도 충분히 성장하고 있기 때문입니다.
확실한 것은 하나입니다. 오픈소스 ASR이 더 이상 "Whisper 아니면 없다"의 시대가 아니라는 것입니다. 선택지가 늘어났고, 각 모델마다 강점이 다릅니다. 개발자의 입장에서는 이보다 좋은 상황이 없습니다. 경쟁이 깊어질수록, 우리가 쓸 수 있는 도구는 더 좋아질 테니까요.