Whisper Large V3 Turbo vs V3: Mac에서 5배 빠름 (벤치마크)

OpenAI의 Whisper Large-v3 Turbo는 디코더를 32개 층에서 4개 층으로 줄여 파라미터 수를 15.5억에서 8.09억으로 축소했습니다. 저희 Apple Silicon 테스트에서는 거의 동일한 정확도로 같은 오디오를 약 5배 빠르게 변환했습니다. Whisper Notes는 Mac과 iPhone에 이 모델을 탑재하고 있습니다.

V3 Turbo vs V3: 무엇이 달라졌나

Turbo는 새로운 아키텍처가 아닙니다. Whisper Large-v3와 완전히 동일한 모델에서 디코더를 32개 층에서 4개 층으로 가지치기한 후, 정확도를 회복하기 위해 파인튜닝한 것입니다. 인코더는 변경되지 않았습니다.

	Large-v3 Turbo	Large-v3
파라미터 수	809M	1,550M
디코더 층 수	4	32
지원 언어	100+	100+
번역 작업	미지원	지원
라이선스	MIT	Apache 2.0

측정 방법: 동일한 10분 오디오 파일을 명시된 각 기기에서 동일한 Whisper Notes 빌드로 변환했습니다. 시간은 변환 시작부터 최종 텍스트까지의 실제 경과 시간(초)이며, V3와 Turbo 사이에 바뀐 것은 모델뿐입니다.

번역 작업은 Turbo의 학습 데이터에서 명시적으로 제외되었습니다. 전체 Large-v3 모델은 번역을 지원하지만, Whisper Notes는 Turbo만 탑재하고 있으며 번역은 Apple Intelligence를 통해 별도로 처리됩니다.

기반 모델: Whisper Large-v3란?

Whisper Large-v3는 2023년 11월에 공개된 OpenAI의 플래그십 오픈소스 음성 인식 모델입니다. 15.5억 파라미터에 128 멜빈 스펙트로그램 입력을 사용하고, 500만 시간의 오디오(약한 라벨링 100만 + 의사 라벨링 400만)로 학습되었으며, 광둥어를 포함해 100개 이상의 언어를 지원합니다. Hugging Face Open ASR 리더보드에서 평균 단어 오류율은 약 7.4%로, 이 글 전체에서 Turbo를 비교하는 정확도 기준선입니다. Large-v3가 다른 온디바이스 모델들과 어떻게 비교되는지는 Whisper 모델 비교를 참고하세요.

속도 벤치마크: Apple Silicon에서의 Whisper Notes

Mac용 Whisper Notes에서 Turbo는 CoreML을 통해 Neural Engine에서 실행됩니다. 10분 분량의 오디오 처리 시:

기기	Whisper V3	V3 Turbo	속도 향상
iPhone 15 Pro	425 s	82 s	5.2×
iPad Pro M2	380 s	71 s	5.4×
MacBook Pro M2	316 s	63 s	5.0×

5배 속도 향상은 Apple Silicon에서의 Whisper Notes에 한정된 결과로, 축소된 디코더가 Neural Engine 최적화의 혜택을 받기 때문입니다. GPU에서 faster-whisper 같은 프레임워크를 사용할 경우, 차이는 약 2.7배로 줄어듭니다 (아래 커뮤니티 벤치마크 참조).

정확도: WER 비교

Hugging Face Open ASR 리더보드는 동일한 영어 데이터셋으로 두 모델을 테스트합니다. Turbo의 단어 오류율은 모든 벤치마크에서 V3와 0.5포인트 이내의 차이입니다:

데이터셋	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
평균 WER	7.83%	7.44%

V3가 모든 데이터셋에서 약간 더 정확하지만 차이는 작습니다 -- 평균 0.39 퍼센트 포인트. 대부분의 실제 전사에서는 차이를 느끼기 어렵습니다.

YouTube-commons 장시간 평가(최대 규모의 오픈소스 ASR 벤치마크 중 하나)에서, Turbo는 WER 13.40%, V3는 13.20%를 기록했지만, 실시간 팩터는 Turbo가 129.5배, V3가 55.3배입니다. 실제 오디오에서 2.3배 빠르면서 거의 동일한 정확도를 보여줍니다.

한국어, 러시아어 등 다른 언어에서 Turbo의 정확도는?

위 벤치마크는 영어 기준입니다. OpenAI의 모델 카드에 따르면, Turbo의 가지치기된 4층 디코더는 영어보다 비영어 언어에서 정확도 손실이 약간 더 크며, 리소스가 적은 언어에서 저하가 가장 큽니다. 러시아어와 대부분의 유럽 언어에서는 Turbo가 전체 Large-v3에 가깝게 유지됩니다 — 그리고 Whisper Notes를 사용한다면 Parakeet V3가 러시아어와 그 외 24개 유럽 언어를 Whisper의 10배 속도로 처리합니다.

한국어, 일본어, 중국어, 광둥어에는 전용 모델이 더 빠르고 구두점도 더 정확합니다: SenseVoice는 CJK를 실시간의 52배 속도로 변환합니다. Whisper Notes는 Mac과 iOS 모두에서 Turbo와 함께 SenseVoice를 제공하므로, 모든 것을 하나의 모델에 밀어 넣는 대신 언어별로 알맞은 모델을 선택할 수 있습니다.

커뮤니티 벤치마크: GPU & CPU

faster-whisper 및 whisper.cpp 커뮤니티의 독립 벤치마크는 다양한 하드웨어에서 일관된 결과를 보여줍니다. GPU에서 faster-whisper로 13분 분량의 오디오를 전사:

모델	정밀도	소요 시간	GPU 메모리	WER
Large-v3 Turbo	fp16	19.2 s	2,537 MB	1.92%
Large-v3	fp16	52.0 s	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2,409 MB	2.39%

출처: faster-whisper NVIDIA GPU 벤치마크, LibriSpeech clean 검증 분할. Turbo int8은 VRAM 1.5 GB만 사용하여 2 GB GPU에서도 실행 가능합니다.

RTX 3060 Laptop (6 GB VRAM, int8 정밀도)에서의 배치 추론은 이점을 더욱 부각시킵니다:

모델	순차 처리	배치 처리 (10)	배치 WER
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

출처: NilaierMusic 벤치마크, Intel i7-12650H + RTX 3060 Laptop 6 GB, 프랑스어 오디오, int8 정밀도.

배치 처리에서 Turbo는 테스트된 모든 모델 중 최고의 WER (7.7%)를 달성하면서 가장 빠른 속도를 기록했습니다. 프로덕션 환경에서 최적의 선택입니다.

Turbo vs Medium vs 모든 Whisper 모델 크기

Turbo 이전에는 Medium이 흔한 타협안이었습니다: 감내할 만한 속도에 수용 가능한 정확도. Turbo는 그 트레이드오프를 무의미하게 만듭니다 — 809M 파라미터로 Medium(769M)보다 간신히 클 뿐인데, Large급 정확도를 몇 배의 속도로 제공합니다. 전체 모델 패밀리를 나란히 비교하면:

모델	파라미터	디스크 크기	상대 속도	정확도 등급
tiny	39M	~75 MB	~10×	최저
base	74M	~142 MB	~7×	낮음
small	244M	~466 MB	~4×	보통
medium	769M	~1.5 GB	~2×	높음
large-v3	1,550M	~2.9 GB	1× (기준)	최고
large-v3-turbo	809M	~1.6 GB	Apple Silicon에서 ~5×	최고에 근접

2024년 9월 30일에 공개된 Turbo는 809M 파라미터입니다. 디스크 공간이나 속도 때문에 Medium을 선택하고 있었다면, 이제 Turbo가 거의 같은 용량으로 정확도와 속도 모두에서 앞섭니다.

알려진 제한 사항 (그리고 Whisper Notes의 대응)

번역 기능 없음

Turbo는 번역 데이터 없이 학습되었습니다. 원본 언어로만 전사합니다 -- Large-v3와 달리 오디오에서 영어로의 번역을 지원하지 않습니다.

Whisper Notes -- Apple Intelligence가 전사 결과를 선택한 언어로 자동 번역하여, 사용하는 모델에 관계없이 이중 언어 출력을 제공합니다.

잡음이 많은 오디오에서 환각 증가

커뮤니티 보고에 따르면 Turbo는 매우 짧은 클립이나 잡음이 많은 녹음에서 V3보다 환각이 더 발생합니다. 디코더 축소(4개 층 vs 32개 층)를 감안하면 예상되는 현상입니다.

Whisper Notes -- 전사 전에 Pyannote VAD를 실행하여 음성 구간을 감지하고 무음 및 잡음을 제거함으로써, 모델이 실제 음성만 처리하도록 합니다.

어떤 모델을 사용해야 할까요?

영어 / 유럽어	Parakeet V3 -- Whisper보다 10배 빠르고 더 높은 정확도
중국어 / 일본어 / 한국어	SenseVoice -- CJK 전용, 52배 속도
기타 언어	Whisper Large V3 Turbo -- 100개 이상의 언어, 높은 정확도, 느린 속도

Whisper Large-v3 Turbo FAQ

Whisper Large-v3와 Large-v3 Turbo의 차이는 무엇인가요?

Large-v3 Turbo는 Large-v3의 인코더는 유지하면서 디코더를 32개 층에서 4개 층으로 줄인 모델입니다. 그래서 텍스트 변환에서는 Large-v3에 가까운 정확도를 유지하면서 훨씬 빠릅니다. 트레이드오프로 Turbo는 Whisper의 내장 번역 작업을 지원하지 않습니다.

faster-whisper는 Large-v3 Turbo를 지원하나요?

예. faster-whisper는 CTranslate2 변환을 통해 Large-v3 Turbo를 지원하며, 커뮤니티 벤치마크에 따르면 VRAM이 제한적일 때 Turbo가 좋은 선택입니다. 위 벤치마크에서 Turbo int8은 약 1.5GB의 VRAM을 사용했습니다.

whisper.cpp는 Large-v3 Turbo를 지원하나요?

예. whisper.cpp는 변환된 GGML/GGUF 버전의 Whisper Large-v3 Turbo를 실행할 수 있습니다. 로컬 텍스트 변환 파이프라인을 직접 구축한다면, Turbo가 전체 Large-v3보다 일반 소비자용 하드웨어에 맞추기 쉬운 경우가 많습니다.

openai/whisper-large-v3-turbo는 어디에서 다운로드하나요?

공식 모델 가중치는 Hugging Face의 OpenAI 저장소에서 받을 수 있습니다. Whisper Notes 사용자는 직접 다운로드할 필요가 없습니다: Mac 앱이 앱 인터페이스에서 로컬 모델 설정을 처리합니다.

로컬 옵션을 전부 비교해 보고 싶으신가요? Whisper 계열, Parakeet V3, SenseVoice, Voxtral 등 모든 온디바이스 음성-텍스트 모델을 Whisper 모델 비교 페이지에서 나란히 비교할 수 있습니다. Whisper 자체가 처음이라면 Whisper 텍스트 변환 가이드부터 시작하세요 — 이 모델이 무엇인지, 실행하는 모든 방법, 그리고 비용까지 다룹니다.

iOS용 다운로드

macOS용 다운로드