Whisper Large V3 Turbo vs V3: Mac'te 5 Kat Daha Hızlı (Kıyaslama)

OpenAI'nin Whisper Large-v3 Turbo modeli, dekoderi 32 katmandan 4'e indirerek parametreleri 1,55B'den 809M'ye dusurur. Sonuc: neredeyse ayni dogrulukla 2-5× daha hizli transkripsiyon. Whisper Notes bunu Apple Silicon Mac'te sunar.

Whisper Large V3 Turbo ile V3 mimari karsilastirmasi

V3 Turbo vs V3: Neler Degisti

Turbo yeni bir mimari degildir. Dekoderi 32 katmandan 4'e budanmis, ardindan dogrulugu kurtarmak icin ince ayar yapilmis ayni Whisper Large-v3 modelidir. Kodlayici (encoder) dokunulmamistir.

	Large-v3 Turbo	Large-v3
Parametreler	809M	1,550M
Dekoder katmanlari	4	32
Diller	99	99
Ceviri gorevi	Desteklenmiyor	Destekleniyor
Lisans	MIT	Apache 2.0

Ceviri gorevi, Turbo'nun egitim verilerinden acikca cikarilmistir. Tam Large-v3 modeli bunu destekler, ancak Whisper Notes yalnizca Turbo'yu sunar - ceviri Apple Intelligence araciligiyla ayrica yapilir.

Hiz Benchmark'i: Apple Silicon'da Whisper Notes

Mac icin Whisper Notes'ta Turbo, Neural Engine uzerinde CoreML ile calisir. 10 dakikalik ses isleme:

Cihaz	Whisper V3	V3 Turbo	Hizlanma
iPhone 15 Pro	425 s	82 s	5,2×
iPad Pro M2	380 s	71 s	5,4×
MacBook Pro M2	316 s	63 s	5,0×

5× hizlanma, Apple Silicon'daki Whisper Notes'a ozgudur; burada kucuk dekoder Neural Engine optimizasyonundan faydalanir. faster-whisper gibi framework'lerle GPU'da fark ~2,7×'e duser (asagidaki topluluk benchmark'lerine bakiniz).

Dogruluk: WER Karsilastirmasi

Hugging Face Open ASR Leaderboard, her iki modeli de ayni Ingilizce veri setlerinde test eder. Turbo'nun kelime hata orani (WER), tum benchmark'lerde V3'ten yarim puanin altindadir:

Veri seti	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
Ortalama WER	7.83%	7.44%

V3 her veri setinde biraz daha dogruludur, ancak fark kucuktur - ortalama 0,39 yuzde puani. Cogu gercek dunya transkripsiyonunda farki hissetmezsiniz.

YouTube-commons uzun format degerlendirmesinde (en buyuk acik kaynakli ASR benchmark'lerinden biri), Turbo 13,40 % WER ile V3'un 13,20 %'sine karsi basarir - 129,5× gercek zamanli faktor ile 55,3x'e karsi. Bu, gercek dunya sesinde neredeyse ayni dogrulukla 2,3× daha hizlidir.

Topluluk Benchmark'leri: GPU ve CPU

faster-whisper ve whisper.cpp topluluklarindan bagimsiz benchmark'ler, donanim genelinde tutarli sonuclar gostermektedir. faster-whisper ile GPU'da 13 dakikalik ses transkripsiyonu:

Model	Hassasiyet	Sure	GPU Bellegi	WER
Large-v3 Turbo	fp16	19.2 s	2,537 MB	1.92%
Large-v3	fp16	52.0 s	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2,409 MB	2.39%

Kaynak: NVIDIA GPU'da faster-whisper benchmark'i, LibriSpeech clean dogrulama bolumu. Turbo int8 yalnizca 1,5 GB VRAM kullanir - 2 GB GPU'ya sigar.

RTX 3060 Laptop'ta (6 GB VRAM, int8 hassasiyet) toplu cikarim avantaji daha da arttirir:

Model	Sirasiyla	Toplu (10)	Toplu WER
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

Kaynak: NilaierMusic benchmark'i, Intel i7-12650H + RTX 3060 Laptop 6 GB, Fransizca ses, int8 hassasiyet.

Toplu islemeyle Turbo, test edilen tum modeller arasinda en iyi WER'i (7,7 %) elde eder ve ayni zamanda en hizlisidir. Uretim kullanimi icin acik ara en uygun secenektir.

Bilinen Sinirlamalar (ve Whisper Notes Bunlari Nasil Ele Alir)

Yerlesik ceviri yok

Turbo, ceviri verisi olmadan egitilmistir. Yalnizca kaynak dilde yaziya doker - ses-Ingilizce cevirisini destekleyen Large-v3'un aksine.

Whisper Notes - Apple Intelligence, transkriptleri sectiginiz dile otomatik olarak cevirir ve hangi modeli kullanirsiniz kullanin iki dilli cikti saglar.

Gurultulu seste daha fazla halusinasyon

Topluluk raporlari, Turbo'nun cok kisa kliplerde veya gurultulu kayitlarda V3'e kiyasla daha fazla halusinasyon yaptigini gostermektedir. Azaltilmis dekoder (4 katman vs 32) goz onune alindiginda beklenen bir durumdur.

Whisper Notes - transkripsiyon oncesinde Pyannote VAD calistirarak konusma segmentlerini tespit eder ve sessizligi/gurultuyu temizler, boylece model yalnizca gercek sesi isler.

Hangi Modeli Kullanmalisiniz?

Ingilizce / Avrupa Dilleri	Parakeet V3 - Whisper'dan 10× daha hizli, daha iyi dogruluk
Cince / Japonca / Korece	SenseVoice - CJK icin ozel olarak tasarlanmis, 52× hiz
Diger diller	Whisper Large V3 Turbo - 99 dil, yuksek dogruluk, daha yavas

iOS icin indir

macOS icin indir