Whisper Large V3 Turbo vs V3: Mac'te 5 Kat Daha Hızlı (Kıyaslama)

6 Kasım 2024
·
6 min read
·Whisper Notes Team

OpenAI'nin Whisper Large-v3 Turbo modeli, dekoderi 32 katmandan 4'e indirerek parametreleri 1,55B'den 809M'ye dusurur. Sonuc: neredeyse ayni dogrulukla 2-5× daha hizli transkripsiyon. Whisper Notes bunu Apple Silicon Mac'te sunar.

Whisper Large V3 Turbo ile V3 mimari karsilastirmasi

V3 Turbo vs V3: Neler Degisti

Turbo yeni bir mimari degildir. Dekoderi 32 katmandan 4'e budanmis, ardindan dogrulugu kurtarmak icin ince ayar yapilmis ayni Whisper Large-v3 modelidir. Kodlayici (encoder) dokunulmamistir.

Large-v3 Turbo Large-v3
Parametreler 809M 1,550M
Dekoder katmanlari 4 32
Diller 99 99
Ceviri gorevi Desteklenmiyor Destekleniyor
Lisans MIT Apache 2.0

Ceviri gorevi, Turbo'nun egitim verilerinden acikca cikarilmistir. Tam Large-v3 modeli bunu destekler, ancak Whisper Notes yalnizca Turbo'yu sunar - ceviri Apple Intelligence araciligiyla ayrica yapilir.

Hiz Benchmark'i: Apple Silicon'da Whisper Notes

Mac icin Whisper Notes'ta Turbo, Neural Engine uzerinde CoreML ile calisir. 10 dakikalik ses isleme:

Cihaz Whisper V3 V3 Turbo Hizlanma
iPhone 15 Pro 425 s 82 s 5,2×
iPad Pro M2 380 s 71 s 5,4×
MacBook Pro M2 316 s 63 s 5,0×

5× hizlanma, Apple Silicon'daki Whisper Notes'a ozgudur; burada kucuk dekoder Neural Engine optimizasyonundan faydalanir. faster-whisper gibi framework'lerle GPU'da fark ~2,7×'e duser (asagidaki topluluk benchmark'lerine bakiniz).

Dogruluk: WER Karsilastirmasi

Hugging Face Open ASR Leaderboard, her iki modeli de ayni Ingilizce veri setlerinde test eder. Turbo'nun kelime hata orani (WER), tum benchmark'lerde V3'ten yarim puanin altindadir:

Veri seti V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
Ortalama WER 7.83% 7.44%

V3 her veri setinde biraz daha dogruludur, ancak fark kucuktur - ortalama 0,39 yuzde puani. Cogu gercek dunya transkripsiyonunda farki hissetmezsiniz.

YouTube-commons uzun format degerlendirmesinde (en buyuk acik kaynakli ASR benchmark'lerinden biri), Turbo 13,40 % WER ile V3'un 13,20 %'sine karsi basarir - 129,5× gercek zamanli faktor ile 55,3x'e karsi. Bu, gercek dunya sesinde neredeyse ayni dogrulukla 2,3× daha hizlidir.

Topluluk Benchmark'leri: GPU ve CPU

faster-whisper ve whisper.cpp topluluklarindan bagimsiz benchmark'ler, donanim genelinde tutarli sonuclar gostermektedir. faster-whisper ile GPU'da 13 dakikalik ses transkripsiyonu:

Model Hassasiyet Sure GPU Bellegi WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

Kaynak: NVIDIA GPU'da faster-whisper benchmark'i, LibriSpeech clean dogrulama bolumu. Turbo int8 yalnizca 1,5 GB VRAM kullanir - 2 GB GPU'ya sigar.

RTX 3060 Laptop'ta (6 GB VRAM, int8 hassasiyet) toplu cikarim avantaji daha da arttirir:

Model Sirasiyla Toplu (10) Toplu WER
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Kaynak: NilaierMusic benchmark'i, Intel i7-12650H + RTX 3060 Laptop 6 GB, Fransizca ses, int8 hassasiyet.

Toplu islemeyle Turbo, test edilen tum modeller arasinda en iyi WER'i (7,7 %) elde eder ve ayni zamanda en hizlisidir. Uretim kullanimi icin acik ara en uygun secenektir.

Bilinen Sinirlamalar (ve Whisper Notes Bunlari Nasil Ele Alir)

Yerlesik ceviri yok

Turbo, ceviri verisi olmadan egitilmistir. Yalnizca kaynak dilde yaziya doker - ses-Ingilizce cevirisini destekleyen Large-v3'un aksine.

Whisper Notes - Apple Intelligence, transkriptleri sectiginiz dile otomatik olarak cevirir ve hangi modeli kullanirsiniz kullanin iki dilli cikti saglar.

Gurultulu seste daha fazla halusinasyon

Topluluk raporlari, Turbo'nun cok kisa kliplerde veya gurultulu kayitlarda V3'e kiyasla daha fazla halusinasyon yaptigini gostermektedir. Azaltilmis dekoder (4 katman vs 32) goz onune alindiginda beklenen bir durumdur.

Whisper Notes - transkripsiyon oncesinde Pyannote VAD calistirarak konusma segmentlerini tespit eder ve sessizligi/gurultuyu temizler, boylece model yalnizca gercek sesi isler.

Hangi Modeli Kullanmalisiniz?

Ingilizce / Avrupa Dilleri Parakeet V3 - Whisper'dan 10× daha hizli, daha iyi dogruluk
Cince / Japonca / Korece SenseVoice - CJK icin ozel olarak tasarlanmis, 52× hiz
Diger diller Whisper Large V3 Turbo - 99 dil, yuksek dogruluk, daha yavas