TL;DR — Mac용 3개 모델 비교
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5분 영어 | 2.91s (103×) | 5.8s (52×) | 20.92s (14.3×) |
| 27분 중국어 | 10.10s (161×) | 13.83s (118×) | 2 min 4s (13.1×) |
| 지원 언어 | 25 (유럽어) | 5 (zh, en, ja, ko, yue) | 99+ |
| 다운로드 | 465 MB | 827 MB | 1.5 GB |
| 메모리 | ~800 MB | ~700 MB | ~1.6 GB |
| 최적 용도 | 영어 & 유럽어 | 중국어, 일본어, 한국어, 광둥어 | 그 외 모든 언어 (99+) |
* 속도 벤치마크: Apple M4 Pro, 32 GB. 5분 영어 팟캐스트와 27분 중국어 팟캐스트. 실시간 계수 = 오디오 길이 ÷ 처리 시간 (높을수록 빠름). SenseVoice는 macOS 전용. iOS는 Parakeet (ANE 사용)와 Whisper를 사용합니다.
버전 1.4.8부터, Mac용 Whisper Notes는 중국어, 일본어, 한국어, 광둥어 전용 엔진으로 SenseVoice Small을 탑재했습니다. Qwen3-ASR을 대체하며, CPU 대신 MLX를 통해 Apple GPU에서 실행됩니다. 27분 중국어 팟캐스트 처리가 3분 44초에서 13.83초로 단축되었습니다.
Qwen3-ASR을 교체한 이유
Qwen3-ASR은 훌륭한 모델이었습니다. 30개 언어와 22개 중국어 방언을 지원했고, 중국어 정확도는 최고 수준에 가까웠습니다. 하지만 오디오가 길어질수록 심각해지는 문제가 있었습니다. 바로 속도입니다.
Qwen3는 자기회귀 아키텍처를 사용했습니다. Whisper와 같은 방식으로, 오디오 프레임을 하나씩 처리하며 앞으로 건너뛸 수 없었습니다. 27분 중국어 팟캐스트에서 73초가 걸렸습니다. 사용은 가능하지만, Parakeet V3가 영어에서 제공하는 즉각적인 결과와는 거리가 멀었습니다.
더 근본적인 문제는 인프라에 있었습니다. Qwen3 통합에 sherpa-onnx를 사용했는데, 이것은 2,249줄의 Swift 래퍼를 가진 C 라이브러리로 모든 것을 CPU 코어에서 처리했습니다. Mac의 GPU는 유휴 상태였습니다.
SenseVoice는 두 문제를 모두 해결했습니다. 속도를 위한 비자기회귀 아키텍처. GPU 가속을 위한 Apple MLX. 결과: 같은 하드웨어에서 16.2배 속도 향상, 코드베이스는 2,249줄에서 288줄로 축소.
벤치마크
동일한 Apple M4 Pro에서 동일한 오디오 파일, 동일한 조건으로 세 모델을 테스트했습니다. 클라우드 없음. 인터넷 없음. 순수한 실리콘의 힘만으로.
| 모델 | 5분 영어 | 27분 중국어 | 속도 (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2.91s | 10.10s | 103–161× |
| SenseVoice Small | 5.8s | 13.83s | 52–118× |
| Whisper Large V3 Turbo | 20.92s | 2 min 4s | 13–14× |
| Qwen3-ASR (제거됨) | — | 73s | 4.7× |
SenseVoice는 Parakeet V3의 약 절반 속도이지만, 여전히 놀라울 만큼 빠릅니다. 27분 팟캐스트가 14초 안에 완료됩니다. 트랜스크립션 버튼을 누르고 한 번 숨을 쉬면 텍스트가 나타나 있습니다.
Whisper의 2분 4초나 이전 Qwen3의 73초와 비교해 보세요. 파라미터 수보다 아키텍처가 더 중요합니다.
FunAudioLLM 논문의 공식 추론 벤치마크: SenseVoice-Small은 10초 오디오를 70ms에 처리 (A800 GPU). Whisper-Large-V3는 1,281ms. 순수 추론 레이턴시에서 18배 차이.
| 모델 | 로드 시간 | 메모리 | 다운로드 크기 |
|---|---|---|---|
| Parakeet V3 | 0.77s | ~800 MB | 465 MB |
| SenseVoice Small | 0.81s | ~700 MB | 827 MB |
| Whisper Small | 1.03s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3.18s | ~1.6 GB | 3 GB |
* 로드 시간 및 메모리: Apple M4 Pro, 32 GB 기준 측정.
SenseVoice는 1초 이내에 로드되며 Parakeet보다 메모리를 적게 사용합니다. 8 GB Mac에서도 다른 애플리케이션과 함께 편안하게 실행됩니다.
SenseVoice가 빠른 이유: 아키텍처 + 런타임
Qwen3-ASR과 SenseVoice의 속도 차이는 두 가지 독립적인 요인에서 비롯됩니다.
요인 1: 모델 아키텍처. Qwen3-ASR은 자기회귀 방식으로, 이전 토큰에 의존하여 토큰을 하나씩 생성합니다. SenseVoice는 비자기회귀(NAR) 인코더를 사용하여 전체 오디오를 병렬로 처리합니다. 이 아키텍처 차이만으로 어떤 하드웨어에서든 SenseVoice가 근본적으로 더 빠릅니다.
요인 2: 런타임. Qwen3-ASR 통합은 sherpa-onnx를 사용하여 CPU에서 실행했습니다. SenseVoice는 Apple MLX를 통해 GPU로 연산을 라우팅합니다. Qwen3도 MLX에서 실행할 수 있었을까요? 네, 하지만 여전히 SenseVoice보다 느렸을 것입니다. 자기회귀 병목은 런타임이 아닌 아키텍처에 있기 때문입니다.
| Qwen3-ASR (이전) | SenseVoice (현재) | |
|---|---|---|
| 아키텍처 | 자기회귀 (토큰 단위) | 비자기회귀 (병렬) |
| 런타임 | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27분 중국어 | 224초 | 13.83초 |
| 종합 속도 향상 | 기준값 | 16.2배 빠름 |
| 코드베이스 | 168 MB C 프레임워크 + 2,249줄 Swift | 288줄 Swift Actor |
* 동일한 27분 중국어 팟캐스트, Apple M4 Pro. 16.2배 속도 향상은 아키텍처(NAR vs AR)와 런타임(GPU vs CPU) 개선을 모두 포함.
코드도 단순해졌습니다. 새로운 SenseVoice 구현은 MLX와 직접 통신하는 288줄의 Swift Actor 하나로, 168 MB C 프레임워크를 대체했습니다. 코드가 줄고, 버그가 줄고, 앱이 가벼워졌습니다.
5개 언어, 완벽하게
SenseVoice는 모든 것을 하려 하지 않습니다. 5개 언어를 다룹니다:
| 언어 | SenseVoice-Small | Whisper-Large-V3 | 승자 |
|---|---|---|---|
| 중국어 (zh-CN) | 10.78% CER | 12.55% CER | SenseVoice (-14%) |
| 광둥어 (yue) | 7.09% CER | 10.41% CER | SenseVoice (-32%) |
| 일본어 (ja) | 11.96% CER | 10.34% CER | Whisper (근소한 차이) |
| 한국어 (ko) | 8.28% CER | 5.59% CER | Whisper |
| 영어 (en) | 14.71% WER | 9.39% WER | Whisper (Parakeet 권장) |
* CommonVoice 벤치마크, CER = 문자 오류율, WER = 단어 오류율. 낮을수록 좋음. 출처: FunAudioLLM 논문 (2024). SenseVoice-Small 추론 레이턴시: 10초 오디오당 70ms (A800 GPU), Whisper-Large-V3보다 15배 이상 빠름.
CommonVoice 벤치마크: SenseVoice-Small (노란색) vs Whisper-Small (파란색) vs Whisper-Large-V3 (주황색). 낮을수록 좋음. 출처: FunAudioLLM 논문
숫자는 솔직한 결과를 보여줍니다. SenseVoice는 중국어와 광둥어 정확도에서 Whisper를 큰 차이로 앞서고, Whisper는 일본어, 한국어, 영어에서 더 정확합니다. 하지만 SenseVoice는 Whisper-Large-V3보다 15배 이상 빠릅니다. 실제 사용에서는 몇 퍼센트의 정확도 차이보다 속도 차이가 더 중요합니다.
광둥어 결과는 별도로 강조할 가치가 있습니다. Whisper-Small은 광둥어에서 38.97% CER을 기록해 거의 사용할 수 없는 수준입니다. Whisper-Large-V3도 10.41%에 불과합니다. SenseVoice는 7.09%입니다. SenseVoice 이전에는 Mac에서 로컬로 광둥어를 트랜스크립션하는 좋은 방법이 없었습니다. 광둥어를 사용하신다면, 이 모델은 바로 여러분을 위한 것입니다.
SenseVoice 한국어 트랜스크립션: 타임스탬프 자막이 포함된 비디오 가져오기
실전 테스트: 27분 중국어 팟캐스트
중국어 인터뷰 팟캐스트 Thirteen Invitations(十三邀) 27분 에피소드를 동일한 M4 Pro에서 SenseVoice와 Whisper Large V3 Turbo로 각각 트랜스크립션했습니다. ElevenLabs Scribe(클라우드)를 참조 기준으로 사용했습니다. 두 온디바이스 모델의 오류 수는 비슷하지만 오류 유형이 다릅니다:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| 처리 시간 | 13.83s | 2 min 4s |
| 오류 수 (5분 샘플) | ~15–20 | ~12–15 |
| 최악의 오류 | 时差→食堂 (시차→구내식당) | 西昌→西藏 (Xīchāng 시→티베트, 4,000 km 오차) |
| 오류 패턴 | 동음이의어 혼동 | 지리/사실 오류 |
* ElevenLabs Scribe(클라우드 참조, 역시 완벽하지는 않음)와 수동 비교. 두 온디바이스 모델 모두 "根深蒂固"를 정확히 인식했지만, Scribe는 틀렸습니다.
비슷한 정확도. 9배 빠른 속도. 실제 중국어 트랜스크립션에서 Whisper가 로딩을 끝내기도 전에 SenseVoice가 사용 가능한 결과를 제공합니다.
어떤 모델을 언제 사용할까
Mac용 Whisper Notes에는 4개의 음성 모델이 탑재되어 있습니다. 각각 다른 시나리오에 최적화되어 있습니다:
| 필요한 것 | 추천 모델 | 이유 |
|---|---|---|
| 영어 또는 유럽어, 최고 속도 | Parakeet V3 | 103× 실시간, 최저 오류율. 기본 모델. |
| 중국어, 일본어, 한국어, 광둥어 | SenseVoice Small | 52–118× 실시간. 광둥어를 지원하는 유일한 모델. |
| 99+ 언어 중 하나 (아랍어, 태국어, 러시아어 등) | Whisper Large V3 Turbo | 가장 넓은 언어 지원. 느리지만 범용. |
| 낮은 메모리 사용 (이전 Mac) | Whisper Small | 487 MB 메모리. 8 GB Mac에서도 편안하게. |
설정 → 트랜스크립션 모델: 언어에 맞는 엔진을 선택하세요
설정의 모델 선택기에 4가지 옵션이 모두 표시되며, 다운로드 크기, 지원 언어 수, 메모리 요구 사항을 확인할 수 있습니다. SenseVoice는 첫 사용 시 다운로드(~827 MB)되며 기기에 저장됩니다.
트레이드오프
SenseVoice는 범용 모델이 아닙니다. 할 수 없는 것들은 다음과 같습니다:
• 5개 언어만 지원. 태국어, 러시아어, 아랍어, 힌디어 또는 Whisper가 지원하는 다른 90개 이상의 언어가 필요하면 Whisper를 사용하세요.
• Mac 전용. SenseVoice는 Apple MLX로 실행되므로 macOS가 필요합니다. iPhone에서는 사용할 수 없습니다. iOS 사용자는 Parakeet(유럽어용)와 Whisper를 이용하세요.
• 저음량 오디오 특이 현상. 매우 짧거나 매우 조용한 구간에서 SenseVoice가 선택한 언어와 상관없이 중국어를 출력하는 경우가 있습니다. "자동" 대신 수동으로 언어를 설정하면 이 현상이 줄어듭니다.
• 스트리밍 미지원. Whisper의 스트리밍 모드와 달리, SenseVoice는 녹음 후 전체 오디오를 처리합니다. 긴 파일의 경우 무음 지점에서 자동 분할하여 결과를 순차적으로 표시합니다.
이것은 버그가 아닌 아키텍처 제약입니다. 5개 언어로 훈련된 모델은 그 5개 언어를 매우 잘 처리합니다. Whisper의 99+개 언어 지원은 더 느린 속도와 개별 언어에서의 더 높은 오류율을 수반합니다.
사용해 보세요
SenseVoice는 Mac용 Whisper Notes v1.4.8 이상에서 사용 가능합니다. 설정 → 트랜스크립션 모델 → SenseVoice Small (~827 MB)에서 다운로드하세요. Apple Silicon Mac (M1 이상)이 필요합니다.
Parakeet V3를 사용 중이고 주로 영어를 음성 입력한다면 전환할 필요가 없습니다. SenseVoice는 중국어, 일본어, 한국어, 광둥어가 필요할 때, 그리고 빠른 처리를 원할 때를 위한 모델입니다.
전체 변경 로그: whispernotes.app/changelog
질문이나 피드백: mac@whispernotes.app