KISA OZET — Karsilastirilan Uc Mac Modeli
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 dk Ingilizce | 2,91s (103x) | 5,8s (52x) | 20,92s (14,3x) |
| 27 dk Cince | 10,10s (161x) | 13,83s (118x) | 2 dk 4s (13,1x) |
| Diller | 25 (Avrupa) | 5 (zh, en, ja, ko, yue) | 99+ |
| Indirme | 465 MB | 827 MB | 1,5 GB |
| Bellek | ~800 MB | ~700 MB | ~1,6 GB |
| En uygun | Ingilizce & Avrupa dilleri | Cince, Japonca, Korece, Kantonca | Diger tum diller (99+ dil) |
* Hiz testleri Apple M4 Pro, 32 GB uzerinde yapilmistir. 5 dakikalik Ingilizce podcast ve 27 dakikalik Cince podcast. Gercek zaman faktoru = ses suresi / isleme suresi (yuksek = hizli). SenseVoice yalnizca macOS icin. iOS, Parakeet (ANE uzerinden) ve Whisper kullanir.
Surum 1.4.8 ile birlikte, Mac icin Whisper Notes, Cince, Japonca, Korece ve Kantonca transkripsiyon icin ozel motor olarak SenseVoice Small modelini sunmaktadir. Qwen3-ASR'nin yerini alan bu model, CPU yerine Apple GPU uzerinde MLX ile calisir — 27 dakikalik bir Cince podcast'i 3 dakika 44 saniye yerine 13,83 saniyede isler.
Neden Qwen3-ASR'yi Degistirdik
Qwen3-ASR saglam bir modeldi. 30 dil ve 22 Cince lehceyi destekliyordu; Cince dogrulugu neredeyse en ust duzeydeydi. Ancak ses uzadikca kotusen bir sorunu vardi: hiz.
Qwen3, otoregresif bir mimari kullaniyordu — Whisper ile ayni yaklasim; sesi kare kare isliyor, hic atlama yapmiyordu. 27 dakikalik bir Cince podcast'te 73 saniye suruyordu. Kullanilabilirdi, ancak Parakeet V3'un Ingilizce icin sundugu anlik sonuc deneyiminden uzakti.
Daha derin sorun altyapimizdi. Qwen3 entegrasyonumuz, her seyi CPU cekirdekleri uzerinden yonlendiren 2.249 satirlik Swift sarmalayiciya sahip bir C kutuphanesi olan sherpa-onnx kullaniyordu. Mac'inizin CPU'su tum isi yaparken GPU bos duruyordu.
SenseVoice her iki sorunu da cozdu. Hiz icin otoregresif olmayan mimari. GPU hizlandirmasi icin Apple MLX. Sonuc: ayni donanim uzerinde 16,2 kat hiz artisi, kod tabani 2.249 satirdan 288'e dustu.
Karsilastirma Testi
Uc model de ayni Apple M4 Pro uzerinde, ayni ses dosyalariyla, ayni kosullarda calistirildi. Bulut yok. Internet yok. Sadece islemci gucu.
| Model | 5 dk Ingilizce | 27 dk Cince | Hiz (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2,91s | 10,10s | 103–161x |
| SenseVoice Small | 5,8s | 13,83s | 52–118x |
| Whisper Large V3 Turbo | 20,92s | 2 dk 4s | 13–14x |
| Qwen3-ASR (kaldirildi) | — | 73s | 4,7x |
SenseVoice, Parakeet V3'un kabaca yarisindaki hizda — yine de son derece hizli. 27 dakikalik bir podcast 14 saniyenin altinda biter. Transkripsiyona basin, bir nefes bekleyin, metin hazir.
Bunu Whisper'in 2 dakika 4 saniyesi veya eski Qwen3'un 73 saniyesiyle karsilastirin. Mimari, parametre sayisindan daha onemlidir.
FunAudioLLM makalesinden resmi cikarim testi: SenseVoice-Small, 10 saniyelik sesi 70ms'de isler (A800 GPU). Whisper-Large-V3 ise 1.281ms surer. Ham cikarim gecikmesinde 18 katlik bir fark.
| Model | Yukleme Suresi | Bellek | Indirme Boyutu |
|---|---|---|---|
| Parakeet V3 | 0,77s | ~800 MB | 465 MB |
| SenseVoice Small | 0,81s | ~700 MB | 827 MB |
| Whisper Small | 1,03s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3,18s | ~1,6 GB | 3 GB |
* Yukleme suresi ve bellek Apple M4 Pro, 32 GB uzerinde olculmustur.
SenseVoice bir saniyenin altinda yuklenir ve Parakeet'ten daha az bellek kullanir. 8 GB'lik bir Mac'te diger uygulamalarinizla birlikte rahatca calisir.
SenseVoice Neden Daha Hizli: Mimari + Calisma Zamani
Qwen3-ASR ile SenseVoice arasindaki hiz farki iki bagimsiz faktordan kaynaklanir.
Faktor 1: Model mimarisi. Qwen3-ASR otoregresiftir — her biri bir oncekine bagli olarak metin belirteclerini teker teker uretir. SenseVoice, tum sesi paralel olarak isleyen otoregresif olmayan (NAR) bir kodlayici kullanir. Bu mimari fark, hangi donanim uzerinde calistirirseniz calistirin, SenseVoice'u temel olarak daha hizli kilar.
Faktor 2: Calisma zamani. Qwen3-ASR entegrasyonumuz CPU uzerinde calisan sherpa-onnx kullaniyordu. SenseVoice, hesaplamayi GPU'ya yonlendiren Apple MLX uzerinden calisir. Qwen3 de MLX uzerinde calisabilir miydi? Evet — ama yine de SenseVoice'tan daha yavas olurdu cunku otoregresif darbogazin nedeni calisma zamani degil, mimaridir.
| Qwen3-ASR (eski) | SenseVoice (yeni) | |
|---|---|---|
| Mimari | Otoregresif (belirtec belirtec) | Otoregresif olmayan (paralel) |
| Calisma Zamani | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 dk Cince | 224 saniye | 13,83 saniye |
| Toplam hizlanma | referans | 16,2x daha hizli |
| Kod tabani | 168 MB C framework + 2.249 satir Swift | 288 satir Swift Actor |
* Ayni 27 dakikalik Cince podcast, Apple M4 Pro. 16,2x hizlanma hem mimari (NAR vs AR) hem de calisma zamani (GPU vs CPU) iyilestirmelerini icerir.
Kod da basitlesti. Yeni SenseVoice uygulamasi, 168 MB'lik C framework'unun yerini alan, dogrudan MLX ile iletisim kuran tek bir 288 satirlik Swift Actor'dur. Daha az kod, daha az hata, daha kucuk uygulama.
Bes Dil, Iyi Yapilmis
SenseVoice her seyi yapmaya calismaz. Bes dili destekler:
| Dil | SenseVoice-Small | Whisper-Large-V3 | Kazanan |
|---|---|---|---|
| Cince (zh-CN) | %10,78 CER | %12,55 CER | SenseVoice (-%14) |
| Kantonca (yue) | %7,09 CER | %10,41 CER | SenseVoice (-%32) |
| Japonca (ja) | %11,96 CER | %10,34 CER | Whisper (az farkla) |
| Korece (ko) | %8,28 CER | %5,59 CER | Whisper |
| Ingilizce (en) | %14,71 WER | %9,39 WER | Whisper (Parakeet kullanin) |
* CommonVoice karsilastirmasi, CER = Karakter Hata Orani, WER = Kelime Hata Orani. Dusuk daha iyidir. Kaynak: FunAudioLLM makalesi (2024). SenseVoice-Small cikarim gecikmesi: 10s ses icin 70ms (A800 GPU), Whisper-Large-V3'ten 15 kattan fazla hizli.
CommonVoice karsilastirmasi: SenseVoice-Small (sari) vs Whisper-Small (mavi) vs Whisper-Large-V3 (turuncu). Dusuk daha iyidir. Kaynak: FunAudioLLM makalesi
Rakamlar durustce bir hikaye anlatiyor. SenseVoice, Cince ve Kantonca dogrulugunda Whisper'i belirgin bir farkla geciyor; Whisper ise Japonca, Korece ve Ingilizce icin daha dogru. Ancak SenseVoice, Whisper-Large-V3'ten 15 kattan fazla hizli. Gercek dunya kullanimlarinin cogunda, hiz farki birkac yuzdelik dogruluk farkinden daha onemlidir.
Kantonca sonucu ayrica vurgulanmaya deger. Whisper-Small, Kantonca'da %38,97 CER alir — neredeyse kullanilamaz. Whisper-Large-V3 bile yalnizca %10,41'e ulasir. SenseVoice %7,09 elde eder. SenseVoice'tan once, Mac'te yerel olarak Kantonca transkripsiyonu yapmanin iyi bir yolu yoktu. Kantonca konusuyorsaniz, bu model sizin icindir.
SenseVoice ile Korece transkripsiyon: zaman damgali altyazili video aktarimi
Gercek Dunya Testi: 27 Dakikalik Cince Podcast
27 dakikalik bir Thirteen Invitations (十三邀) bolumunu — bir Cince roportaj podcast'ini — ayni M4 Pro uzerinde hem SenseVoice hem de Whisper Large V3 Turbo ile transkribe ettik. Referans olarak ElevenLabs Scribe (bulut) kullanildi. Her iki cihaz uzerindeki model yaklasik olarak ayni sayida hata yapiyor, ancak farkli turde:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| Sure | 13,83s | 2 dk 4s |
| Hatalar (5 dk orneklem) | ~15–20 | ~12–15 |
| En kotu hata | 时差→食堂 (saat farki→yemekhane) | 西昌→西藏 (Xichang sehri→Tibet, 4.000 km sapma) |
| Hata deseni | Esdeger sesli yer degistirmeler | Cografi/olgusal hatalar |
* ElevenLabs Scribe (bulut referansi, o da kusursuz degil) ile manuel karsilastirma. Her iki cihaz uzerindeki model, Scribe'in yanlis yazdigi "根深蒂固" ifadesini dogru yazdi.
Karsilastirabilir dogruluk. 9 kat daha hizli. Gercek dunya Cince transkripsiyonunda, SenseVoice size Whisper yuklenmesini bile bitirmeden kullanilabilir bir transkript sunar.
Hangi Modeli Ne Zaman Kullanmali
Mac icin Whisper Notes artik dort konusma modeli sunuyor. Her biri farkli senaryolar icin optimize edilmistir:
| Ihtiyaciniz... | Bu modeli kullanin | Neden |
|---|---|---|
| Ingilizce veya Avrupa dilleri, maksimum hiz | Parakeet V3 | 103x gercek zamanli, en dusuk hata orani. Varsayilan. |
| Cince, Japonca, Korece veya Kantonca | SenseVoice Small | 52–118x gercek zamanli. Kantonca destegi olan tek model. |
| 99+ dilden herhangi biri (Arapca, Tayca, Rusca vb.) | Whisper Large V3 Turbo | En genis dil destegi. Daha yavas ama evrensel. |
| Dusuk bellek kullanimi (eski Mac'ler) | Whisper Small | 487 MB bellek. Diger uygulamalari calistiran 8 GB Mac'ler icin iyi. |
Ayarlar → Transkripsiyon Modeli: dilinize uygun motoru secin
Ayarlardaki model secici, dort secenegi indirme boyutlari, dil sayilari ve bellek gereksinimleriyle gosterir. SenseVoice ilk kullanimda indirilir (~827 MB) ve cihazinizda kalir.
Odunler
SenseVoice evrensel bir model degildir. Yapamadiklari:
• Yalnizca 5 dil. Tayca, Rusca, Arapca, Hintce veya Whisper'in destekledigi diger 90+ dilden birine ihtiyaciniz varsa Whisper'i kullanin.
• Yalnizca Mac. SenseVoice, macOS gerektiren Apple MLX uzerinden calisir. iPhone'da kullanilamaz. iOS kullanicilari Parakeet (Avrupa dilleri icin) ve Whisper'a sahiptir.
• Sessiz ses sorunu. Cok kisa veya cok sessiz bolumlerde SenseVoice bazen secilen dilden bagimsiz olarak Cince ciktiya donebilir. Dili manuel olarak ayarlamak ("Otomatik" yerine) bunu azaltir.
• Akis destegi yok. Whisper'in akis modunun aksine, SenseVoice kayittan sonra tum sesi isler. Uzun dosyalar icin sessizlik noktalarinda otomatik bolumler ve sonuclari asama asama gosterir.
Bunlar mimari kisitlamalardir, hata degil. 5 dil uzerine egitilmis bir model o 5 dili son derece iyi yapar. Whisper'in 99+ dil destegi, daha yavas hiz ve herhangi bir dilde daha yuksek hata oranlariyla birlikte gelir.
Deneyin
SenseVoice, Mac icin Whisper Notes v1.4.8 ve sonrasinda kullanilabilir. Ayarlar → Transkripsiyon Modeli → SenseVoice Small (~827 MB) yolundan indirin. Apple Silicon Mac (M1 veya sonrasi) gerektirir.
Parakeet V3 kullaniyorsaniz ve cogunlukla Ingilizce dikte ediyorsaniz, gecis yapmaniza gerek yok. SenseVoice, Cince, Japonca, Korece veya Kantonca'ya ihtiyac duydugunuzda — ve bunu hizli istediginizde icindir.
Tum degisiklik gunlugu: whispernotes.app/changelog
Sorular veya geri bildirim: mac@whispernotes.app