Whisper Large V3 Turbo vs V3: Mac에서 5배 빠름 (벤치마크)

2024년 11월 6일
·
6 min read
·Whisper Notes Team

OpenAI의 Whisper Large-v3 Turbo는 디코더를 32개 층에서 4개 층으로 줄여 파라미터 수를 15.5억에서 8.09억으로 축소했습니다. 결과: 거의 동일한 정확도로 2~5배 빠른 전사 속도. Whisper Notes는 Apple Silicon Mac에서 이 모델을 탑재하고 있습니다.

Whisper Large V3 Turbo와 V3 아키텍처 비교

V3 Turbo vs V3: 무엇이 달라졌나

Turbo는 새로운 아키텍처가 아닙니다. Whisper Large-v3와 완전히 동일한 모델에서 디코더를 32개 층에서 4개 층으로 가지치기한 후, 정확도를 회복하기 위해 파인튜닝한 것입니다. 인코더는 변경되지 않았습니다.

Large-v3 Turbo Large-v3
파라미터 수 809M 1,550M
디코더 층 수 4 32
지원 언어 99 99
번역 작업 미지원 지원
라이선스 MIT Apache 2.0

번역 작업은 Turbo의 학습 데이터에서 명시적으로 제외되었습니다. 전체 Large-v3 모델은 번역을 지원하지만, Whisper Notes는 Turbo만 탑재하고 있으며 번역은 Apple Intelligence를 통해 별도로 처리됩니다.

속도 벤치마크: Apple Silicon에서의 Whisper Notes

Mac용 Whisper Notes에서 Turbo는 CoreML을 통해 Neural Engine에서 실행됩니다. 10분 분량의 오디오 처리 시:

기기 Whisper V3 V3 Turbo 속도 향상
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

5배 속도 향상은 Apple Silicon에서의 Whisper Notes에 한정된 결과로, 축소된 디코더가 Neural Engine 최적화의 혜택을 받기 때문입니다. GPU에서 faster-whisper 같은 프레임워크를 사용할 경우, 차이는 약 2.7배로 줄어듭니다 (아래 커뮤니티 벤치마크 참조).

정확도: WER 비교

Hugging Face Open ASR 리더보드는 동일한 영어 데이터셋으로 두 모델을 테스트합니다. Turbo의 단어 오류율은 모든 벤치마크에서 V3와 0.5포인트 이내의 차이입니다:

데이터셋 V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
평균 WER 7.83% 7.44%

V3가 모든 데이터셋에서 약간 더 정확하지만 차이는 작습니다 -- 평균 0.39 퍼센트 포인트. 대부분의 실제 전사에서는 차이를 느끼기 어렵습니다.

YouTube-commons 장시간 평가(최대 규모의 오픈소스 ASR 벤치마크 중 하나)에서, Turbo는 WER 13.40%, V3는 13.20%를 기록했지만, 실시간 팩터는 Turbo가 129.5배, V3가 55.3배입니다. 실제 오디오에서 2.3배 빠르면서 거의 동일한 정확도를 보여줍니다.

커뮤니티 벤치마크: GPU & CPU

faster-whisper 및 whisper.cpp 커뮤니티의 독립 벤치마크는 다양한 하드웨어에서 일관된 결과를 보여줍니다. GPU에서 faster-whisper로 13분 분량의 오디오를 전사:

모델 정밀도 소요 시간 GPU 메모리 WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

출처: faster-whisper NVIDIA GPU 벤치마크, LibriSpeech clean 검증 분할. Turbo int8은 VRAM 1.5 GB만 사용하여 2 GB GPU에서도 실행 가능합니다.

RTX 3060 Laptop (6 GB VRAM, int8 정밀도)에서의 배치 추론은 이점을 더욱 부각시킵니다:

모델 순차 처리 배치 처리 (10) 배치 WER
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

출처: NilaierMusic 벤치마크, Intel i7-12650H + RTX 3060 Laptop 6 GB, 프랑스어 오디오, int8 정밀도.

배치 처리에서 Turbo는 테스트된 모든 모델 중 최고의 WER (7.7%)를 달성하면서 가장 빠른 속도를 기록했습니다. 프로덕션 환경에서 최적의 선택입니다.

알려진 제한 사항 (그리고 Whisper Notes의 대응)

번역 기능 없음

Turbo는 번역 데이터 없이 학습되었습니다. 원본 언어로만 전사합니다 -- Large-v3와 달리 오디오에서 영어로의 번역을 지원하지 않습니다.

Whisper Notes -- Apple Intelligence가 전사 결과를 선택한 언어로 자동 번역하여, 사용하는 모델에 관계없이 이중 언어 출력을 제공합니다.

잡음이 많은 오디오에서 환각 증가

커뮤니티 보고에 따르면 Turbo는 매우 짧은 클립이나 잡음이 많은 녹음에서 V3보다 환각이 더 발생합니다. 디코더 축소(4개 층 vs 32개 층)를 감안하면 예상되는 현상입니다.

Whisper Notes -- 전사 전에 Pyannote VAD를 실행하여 음성 구간을 감지하고 무음 및 잡음을 제거함으로써, 모델이 실제 음성만 처리하도록 합니다.

어떤 모델을 사용해야 할까요?

영어 / 유럽어 Parakeet V3 -- Whisper보다 10배 빠르고 더 높은 정확도
중국어 / 일본어 / 한국어 SenseVoice -- CJK 전용, 52배 속도
기타 언어 Whisper Large V3 Turbo -- 99개 언어, 높은 정확도, 느린 속도