SenseVoice: Mac'te Çince, Japonca ve Korece 52× Daha Hızlı Transkripsiyon

KISA OZET — Karsilastirilan Uc Mac Modeli

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 dk Ingilizce	2,91s (103x)	5,8s (52x)	20,92s (14,3x)
27 dk Cince	10,10s (161x)	13,83s (118x)	2 dk 4s (13,1x)
Diller	25 (Avrupa)	5 (zh, en, ja, ko, yue)	99+
Indirme	465 MB	827 MB	1,5 GB
Bellek	~800 MB	~700 MB	~1,6 GB
En uygun	Ingilizce & Avrupa dilleri	Cince, Japonca, Korece, Kantonca	Diger tum diller (99+ dil)

* Hiz testleri Apple M4 Pro, 32 GB uzerinde yapilmistir. 5 dakikalik Ingilizce podcast ve 27 dakikalik Cince podcast. Gercek zaman faktoru = ses suresi / isleme suresi (yuksek = hizli). SenseVoice yalnizca macOS icin. iOS, Parakeet (ANE uzerinden) ve Whisper kullanir.

Surum 1.4.8 ile birlikte, Mac icin Whisper Notes, Cince, Japonca, Korece ve Kantonca transkripsiyon icin ozel motor olarak SenseVoice Small modelini sunmaktadir. Qwen3-ASR'nin yerini alan bu model, CPU yerine Apple GPU uzerinde MLX ile calisir — 27 dakikalik bir Cince podcast'i 3 dakika 44 saniye yerine 13,83 saniyede isler.

Neden Qwen3-ASR'yi Degistirdik

Qwen3-ASR saglam bir modeldi. 30 dil ve 22 Cince lehceyi destekliyordu; Cince dogrulugu neredeyse en ust duzeydeydi. Ancak ses uzadikca kotusen bir sorunu vardi: hiz.

Qwen3, otoregresif bir mimari kullaniyordu — Whisper ile ayni yaklasim; sesi kare kare isliyor, hic atlama yapmiyordu. 27 dakikalik bir Cince podcast'te 73 saniye suruyordu. Kullanilabilirdi, ancak Parakeet V3'un Ingilizce icin sundugu anlik sonuc deneyiminden uzakti.

Daha derin sorun altyapimizdi. Qwen3 entegrasyonumuz, her seyi CPU cekirdekleri uzerinden yonlendiren 2.249 satirlik Swift sarmalayiciya sahip bir C kutuphanesi olan sherpa-onnx kullaniyordu. Mac'inizin CPU'su tum isi yaparken GPU bos duruyordu.

SenseVoice her iki sorunu da cozdu. Hiz icin otoregresif olmayan mimari. GPU hizlandirmasi icin Apple MLX. Sonuc: ayni donanim uzerinde 16,2 kat hiz artisi, kod tabani 2.249 satirdan 288'e dustu.

Karsilastirma Testi

Uc model de ayni Apple M4 Pro uzerinde, ayni ses dosyalariyla, ayni kosullarda calistirildi. Bulut yok. Internet yok. Sadece islemci gucu.

Model	5 dk Ingilizce	27 dk Cince	Hiz (RTFx)
Parakeet V3	2,91s	10,10s	103–161x
SenseVoice Small	5,8s	13,83s	52–118x
Whisper Large V3 Turbo	20,92s	2 dk 4s	13–14x
Qwen3-ASR (kaldirildi)	—	73s	4,7x

SenseVoice, Parakeet V3'un kabaca yarisindaki hizda — yine de son derece hizli. 27 dakikalik bir podcast 14 saniyenin altinda biter. Transkripsiyona basin, bir nefes bekleyin, metin hazir.

Bunu Whisper'in 2 dakika 4 saniyesi veya eski Qwen3'un 73 saniyesiyle karsilastirin. Mimari, parametre sayisindan daha onemlidir.

FunAudioLLM makalesinden resmi cikarim hizi karsilastirma tablosu: SenseVoice-Small (10s ses icin 70ms) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - model mimarisi, parametreler, desteklenen diller, RTF ve gecikme suresi

FunAudioLLM makalesinden resmi cikarim testi: SenseVoice-Small, 10 saniyelik sesi 70ms'de isler (A800 GPU). Whisper-Large-V3 ise 1.281ms surer. Ham cikarim gecikmesinde 18 katlik bir fark.

Model	Yukleme Suresi	Bellek	Indirme Boyutu
Parakeet V3	0,77s	~800 MB	465 MB
SenseVoice Small	0,81s	~700 MB	827 MB
Whisper Small	1,03s	~487 MB	600 MB
Whisper Large V3 Turbo	3,18s	~1,6 GB	3 GB

* Yukleme suresi ve bellek Apple M4 Pro, 32 GB uzerinde olculmustur.

SenseVoice bir saniyenin altinda yuklenir ve Parakeet'ten daha az bellek kullanir. 8 GB'lik bir Mac'te diger uygulamalarinizla birlikte rahatca calisir.

SenseVoice Neden Daha Hizli: Mimari + Calisma Zamani

Qwen3-ASR ile SenseVoice arasindaki hiz farki iki bagimsiz faktordan kaynaklanir.

Faktor 1: Model mimarisi. Qwen3-ASR otoregresiftir — her biri bir oncekine bagli olarak metin belirteclerini teker teker uretir. SenseVoice, tum sesi paralel olarak isleyen otoregresif olmayan (NAR) bir kodlayici kullanir. Bu mimari fark, hangi donanim uzerinde calistirirseniz calistirin, SenseVoice'u temel olarak daha hizli kilar.

Faktor 2: Calisma zamani. Qwen3-ASR entegrasyonumuz CPU uzerinde calisan sherpa-onnx kullaniyordu. SenseVoice, hesaplamayi GPU'ya yonlendiren Apple MLX uzerinden calisir. Qwen3 de MLX uzerinde calisabilir miydi? Evet — ama yine de SenseVoice'tan daha yavas olurdu cunku otoregresif darbogazin nedeni calisma zamani degil, mimaridir.

	Qwen3-ASR (eski)	SenseVoice (yeni)
Mimari	Otoregresif (belirtec belirtec)	Otoregresif olmayan (paralel)
Calisma Zamani	sherpa-onnx (CPU)	Apple MLX (GPU)
27 dk Cince	224 saniye	13,83 saniye
Toplam hizlanma	referans	16,2x daha hizli
Kod tabani	168 MB C framework + 2.249 satir Swift	288 satir Swift Actor

* Ayni 27 dakikalik Cince podcast, Apple M4 Pro. 16,2x hizlanma hem mimari (NAR vs AR) hem de calisma zamani (GPU vs CPU) iyilestirmelerini icerir.

Kod da basitlesti. Yeni SenseVoice uygulamasi, 168 MB'lik C framework'unun yerini alan, dogrudan MLX ile iletisim kuran tek bir 288 satirlik Swift Actor'dur. Daha az kod, daha az hata, daha kucuk uygulama.

Bes Dil, Iyi Yapilmis

SenseVoice her seyi yapmaya calismaz. Bes dili destekler:

Dil	SenseVoice-Small	Whisper-Large-V3	Kazanan
Cince (zh-CN)	%10,78 CER	%12,55 CER	SenseVoice (-%14)
Kantonca (yue)	%7,09 CER	%10,41 CER	SenseVoice (-%32)
Japonca (ja)	%11,96 CER	%10,34 CER	Whisper (az farkla)
Korece (ko)	%8,28 CER	%5,59 CER	Whisper
Ingilizce (en)	%14,71 WER	%9,39 WER	Whisper (Parakeet kullanin)

* CommonVoice karsilastirmasi, CER = Karakter Hata Orani, WER = Kelime Hata Orani. Dusuk daha iyidir. Kaynak: FunAudioLLM makalesi (2024). SenseVoice-Small cikarim gecikmesi: 10s ses icin 70ms (A800 GPU), Whisper-Large-V3'ten 15 kattan fazla hizli.

CommonVoice karsilastirmasinda SenseVoice vs Whisper dogruluk karsilastirmasi: Cince, Kantonca, Ingilizce, Japonca, Korece ve 25 diger dil - WER/CER cubuk grafigi

CommonVoice karsilastirmasi: SenseVoice-Small (sari) vs Whisper-Small (mavi) vs Whisper-Large-V3 (turuncu). Dusuk daha iyidir. Kaynak: FunAudioLLM makalesi

Rakamlar durustce bir hikaye anlatiyor. SenseVoice, Cince ve Kantonca dogrulugunda Whisper'i belirgin bir farkla geciyor; Whisper ise Japonca, Korece ve Ingilizce icin daha dogru. Ancak SenseVoice, Whisper-Large-V3'ten 15 kattan fazla hizli. Gercek dunya kullanimlarinin cogunda, hiz farki birkac yuzdelik dogruluk farkinden daha onemlidir.

Kantonca sonucu ayrica vurgulanmaya deger. Whisper-Small, Kantonca'da %38,97 CER alir — neredeyse kullanilamaz. Whisper-Large-V3 bile yalnizca %10,41'e ulasir. SenseVoice %7,09 elde eder. SenseVoice'tan once, Mac'te yerel olarak Kantonca transkripsiyonu yapmanin iyi bir yolu yoktu. Kantonca konusuyorsaniz, bu model sizin icindir.

Whisper Notes for Mac'te SenseVoice Korece transkripsiyon sonucu, bir videodan dogru Korece metin gosteriyor

SenseVoice ile Korece transkripsiyon: zaman damgali altyazili video aktarimi

Gercek Dunya Testi: 27 Dakikalik Cince Podcast

27 dakikalik bir Thirteen Invitations (十三邀) bolumunu — bir Cince roportaj podcast'ini — ayni M4 Pro uzerinde hem SenseVoice hem de Whisper Large V3 Turbo ile transkribe ettik. Referans olarak ElevenLabs Scribe (bulut) kullanildi. Her iki cihaz uzerindeki model yaklasik olarak ayni sayida hata yapiyor, ancak farkli turde:

	SenseVoice	Whisper Large V3
Sure	13,83s	2 dk 4s
Hatalar (5 dk orneklem)	~15–20	~12–15
En kotu hata	时差→食堂 (saat farki→yemekhane)	西昌→西藏 (Xichang sehri→Tibet, 4.000 km sapma)
Hata deseni	Esdeger sesli yer degistirmeler	Cografi/olgusal hatalar

* ElevenLabs Scribe (bulut referansi, o da kusursuz degil) ile manuel karsilastirma. Her iki cihaz uzerindeki model, Scribe'in yanlis yazdigi "根深蒂固" ifadesini dogru yazdi.

Karsilastirabilir dogruluk. 9 kat daha hizli. Gercek dunya Cince transkripsiyonunda, SenseVoice size Whisper yuklenmesini bile bitirmeden kullanilabilir bir transkript sunar.

Hangi Modeli Ne Zaman Kullanmali

Mac icin Whisper Notes artik dort konusma modeli sunuyor. Her biri farkli senaryolar icin optimize edilmistir:

Ihtiyaciniz...	Bu modeli kullanin	Neden
Ingilizce veya Avrupa dilleri, maksimum hiz	Parakeet V3	103x gercek zamanli, en dusuk hata orani. Varsayilan.
Cince, Japonca, Korece veya Kantonca	SenseVoice Small	52–118x gercek zamanli. Kantonca destegi olan tek model.
99+ dilden herhangi biri (Arapca, Tayca, Rusca vb.)	Whisper Large V3 Turbo	En genis dil destegi. Daha yavas ama evrensel.
Dusuk bellek kullanimi (eski Mac'ler)	Whisper Small	487 MB bellek. Diger uygulamalari calistiran 8 GB Mac'ler icin iyi.

Whisper Notes Mac model secici: Parakeet V3, SenseVoice Small, Whisper Small ve Whisper Large V3 Turbo indirme boyutlari ve dil destegi ile gosteriliyor

Ayarlar → Transkripsiyon Modeli: dilinize uygun motoru secin

Ayarlardaki model secici, dort secenegi indirme boyutlari, dil sayilari ve bellek gereksinimleriyle gosterir. SenseVoice ilk kullanimda indirilir (~827 MB) ve cihazinizda kalir.

Odunler

SenseVoice evrensel bir model degildir. Yapamadiklari:

• Yalnizca 5 dil. Tayca, Rusca, Arapca, Hintce veya Whisper'in destekledigi diger 90+ dilden birine ihtiyaciniz varsa Whisper'i kullanin.

• Yalnizca Mac. SenseVoice, macOS gerektiren Apple MLX uzerinden calisir. iPhone'da kullanilamaz. iOS kullanicilari Parakeet (Avrupa dilleri icin) ve Whisper'a sahiptir.

• Sessiz ses sorunu. Cok kisa veya cok sessiz bolumlerde SenseVoice bazen secilen dilden bagimsiz olarak Cince ciktiya donebilir. Dili manuel olarak ayarlamak ("Otomatik" yerine) bunu azaltir.

• Akis destegi yok. Whisper'in akis modunun aksine, SenseVoice kayittan sonra tum sesi isler. Uzun dosyalar icin sessizlik noktalarinda otomatik bolumler ve sonuclari asama asama gosterir.

Bunlar mimari kisitlamalardir, hata degil. 5 dil uzerine egitilmis bir model o 5 dili son derece iyi yapar. Whisper'in 99+ dil destegi, daha yavas hiz ve herhangi bir dilde daha yuksek hata oranlariyla birlikte gelir.

Deneyin

SenseVoice, Mac icin Whisper Notes v1.4.8 ve sonrasinda kullanilabilir. Ayarlar → Transkripsiyon Modeli → SenseVoice Small (~827 MB) yolundan indirin. Apple Silicon Mac (M1 veya sonrasi) gerektirir.

Parakeet V3 kullaniyorsaniz ve cogunlukla Ingilizce dikte ediyorsaniz, gecis yapmaniza gerek yok. SenseVoice, Cince, Japonca, Korece veya Kantonca'ya ihtiyac duydugunuzda — ve bunu hizli istediginizde icindir.

Mac icin Indir

Tum degisiklik gunlugu: whispernotes.app/changelog

Sorular veya geri bildirim: mac@whispernotes.app