OpenAI'nin Whisper Large-v3 Turbo modeli, dekoderi 32 katmandan 4'e indirerek parametreleri 1,55B'den 809M'ye dusurur. Sonuc: neredeyse ayni dogrulukla 2-5× daha hizli transkripsiyon. Whisper Notes bunu Apple Silicon Mac'te sunar.
V3 Turbo vs V3: Neler Degisti
Turbo yeni bir mimari degildir. Dekoderi 32 katmandan 4'e budanmis, ardindan dogrulugu kurtarmak icin ince ayar yapilmis ayni Whisper Large-v3 modelidir. Kodlayici (encoder) dokunulmamistir.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| Parametreler | 809M | 1,550M |
| Dekoder katmanlari | 4 | 32 |
| Diller | 99 | 99 |
| Ceviri gorevi | Desteklenmiyor | Destekleniyor |
| Lisans | MIT | Apache 2.0 |
Ceviri gorevi, Turbo'nun egitim verilerinden acikca cikarilmistir. Tam Large-v3 modeli bunu destekler, ancak Whisper Notes yalnizca Turbo'yu sunar - ceviri Apple Intelligence araciligiyla ayrica yapilir.
Hiz Benchmark'i: Apple Silicon'da Whisper Notes
Mac icin Whisper Notes'ta Turbo, Neural Engine uzerinde CoreML ile calisir. 10 dakikalik ses isleme:
| Cihaz | Whisper V3 | V3 Turbo | Hizlanma |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5,2× |
| iPad Pro M2 | 380 s | 71 s | 5,4× |
| MacBook Pro M2 | 316 s | 63 s | 5,0× |
5× hizlanma, Apple Silicon'daki Whisper Notes'a ozgudur; burada kucuk dekoder Neural Engine optimizasyonundan faydalanir. faster-whisper gibi framework'lerle GPU'da fark ~2,7×'e duser (asagidaki topluluk benchmark'lerine bakiniz).
Dogruluk: WER Karsilastirmasi
Hugging Face Open ASR Leaderboard, her iki modeli de ayni Ingilizce veri setlerinde test eder. Turbo'nun kelime hata orani (WER), tum benchmark'lerde V3'ten yarim puanin altindadir:
| Veri seti | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| Ortalama WER | 7.83% | 7.44% |
V3 her veri setinde biraz daha dogruludur, ancak fark kucuktur - ortalama 0,39 yuzde puani. Cogu gercek dunya transkripsiyonunda farki hissetmezsiniz.
YouTube-commons uzun format degerlendirmesinde (en buyuk acik kaynakli ASR benchmark'lerinden biri), Turbo 13,40 % WER ile V3'un 13,20 %'sine karsi basarir - 129,5× gercek zamanli faktor ile 55,3x'e karsi. Bu, gercek dunya sesinde neredeyse ayni dogrulukla 2,3× daha hizlidir.
Topluluk Benchmark'leri: GPU ve CPU
faster-whisper ve whisper.cpp topluluklarindan bagimsiz benchmark'ler, donanim genelinde tutarli sonuclar gostermektedir. faster-whisper ile GPU'da 13 dakikalik ses transkripsiyonu:
| Model | Hassasiyet | Sure | GPU Bellegi | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
Kaynak: NVIDIA GPU'da faster-whisper benchmark'i, LibriSpeech clean dogrulama bolumu. Turbo int8 yalnizca 1,5 GB VRAM kullanir - 2 GB GPU'ya sigar.
RTX 3060 Laptop'ta (6 GB VRAM, int8 hassasiyet) toplu cikarim avantaji daha da arttirir:
| Model | Sirasiyla | Toplu (10) | Toplu WER |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
Kaynak: NilaierMusic benchmark'i, Intel i7-12650H + RTX 3060 Laptop 6 GB, Fransizca ses, int8 hassasiyet.
Toplu islemeyle Turbo, test edilen tum modeller arasinda en iyi WER'i (7,7 %) elde eder ve ayni zamanda en hizlisidir. Uretim kullanimi icin acik ara en uygun secenektir.
Bilinen Sinirlamalar (ve Whisper Notes Bunlari Nasil Ele Alir)
Yerlesik ceviri yok
Turbo, ceviri verisi olmadan egitilmistir. Yalnizca kaynak dilde yaziya doker - ses-Ingilizce cevirisini destekleyen Large-v3'un aksine.
Whisper Notes - Apple Intelligence, transkriptleri sectiginiz dile otomatik olarak cevirir ve hangi modeli kullanirsiniz kullanin iki dilli cikti saglar.
Gurultulu seste daha fazla halusinasyon
Topluluk raporlari, Turbo'nun cok kisa kliplerde veya gurultulu kayitlarda V3'e kiyasla daha fazla halusinasyon yaptigini gostermektedir. Azaltilmis dekoder (4 katman vs 32) goz onune alindiginda beklenen bir durumdur.
Whisper Notes - transkripsiyon oncesinde Pyannote VAD calistirarak konusma segmentlerini tespit eder ve sessizligi/gurultuyu temizler, boylece model yalnizca gercek sesi isler.
Hangi Modeli Kullanmalisiniz?
| Ingilizce / Avrupa Dilleri | Parakeet V3 - Whisper'dan 10× daha hizli, daha iyi dogruluk |
| Cince / Japonca / Korece | SenseVoice - CJK icin ozel olarak tasarlanmis, 52× hiz |
| Diger diller | Whisper Large V3 Turbo - 99 dil, yuksek dogruluk, daha yavas |