SAŽETAK — Usporedba tri Mac modela
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 min engleski | 2,91 s (103×) | 5,8 s (52×) | 20,92 s (14,3×) |
| 27 min kineski | 10,10 s (161×) | 13,83 s (118×) | 2 min 4 s (13,1×) |
| Jezici | 25 (europski) | 5 (zh, en, ja, ko, yue) | 99+ |
| Preuzimanje | 465 MB | 827 MB | 1,5 GB |
| Memorija | ~800 MB | ~700 MB | ~1,6 GB |
| Najbolje za | Engleski & europske jezike | Kineski, japanski, korejski, kantonski | Sve ostalo (99+ jezika) |
* Testovi brzine na Apple M4 Pro, 32 GB. 5-minutni engleski podcast i 27-minutni kineski podcast. Faktor stvarnog vremena = trajanje zvuka ÷ vrijeme obrade (više = brže). SenseVoice je samo za macOS. iOS koristi Parakeet (putem ANE) i Whisper.
Počevši od verzije 1.4.8, Whisper Notes za Mac dolazi sa SenseVoice Small kao namjenskim motorom za transkripciju kineskog, japanskog, korejskog i kantonskog jezika. Zamjenjuje Qwen3-ASR i radi na Appleovom GPU-u putem MLX-a umjesto CPU-a — obrađuje 27-minutni kineski podcast za 13,83 sekunde umjesto 3 minute i 44 sekunde.
Zašto smo zamijenili Qwen3-ASR
Qwen3-ASR bio je solidan model. Podržavao je 30 jezika plus 22 kineska dijalekta, a njegova točnost u kineskom bila je blizu vrhunske razine. No imao je problem koji se pogoršavao s duljinom zvuka: brzina.
Qwen3 je koristio autoregresivnu arhitekturu — isti pristup kao Whisper, obrađujući zvuk okvir po okvir, nikad ne preskačući. Na 27-minutnom kineskom podcastu trebalo mu je 73 sekunde. Upotrebljivo, ali daleko od iskustva trenutnog rezultata koje Parakeet V3 nudi za engleski.
Dublji problem bila je naša infrastruktura. Naša integracija Qwen3 koristila je sherpa-onnx, C biblioteku s omotačem od 2.249 redaka u Swiftu koji je sve usmjeravao kroz CPU jezgre. GPU je bio neaktivan dok je CPU vašeg Maca radio sav posao.
SenseVoice je riješio oba problema. Neautoregresivna arhitektura za brzinu. Apple MLX za ubrzanje GPU-a. Rezultat: 16,2× poboljšanje brzine na istom hardveru, baza koda smanjena s 2.249 na 288 redaka.
Benchmark
Sva tri modela pokrenuta na istom Apple M4 Pro, iste audio datoteke, isti uvjeti. Bez oblaka. Bez interneta. Samo silicij.
| Model | 5 min engleski | 27 min kineski | Brzina (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2,91 s | 10,10 s | 103–161× |
| SenseVoice Small | 5,8 s | 13,83 s | 52–118× |
| Whisper Large V3 Turbo | 20,92 s | 2 min 4 s | 13–14× |
| Qwen3-ASR (uklonjen) | — | 73 s | 4,7× |
SenseVoice je otprilike upola sporiji od Parakeet V3 — ali i dalje iznimno brz. 27-minutni podcast završava za manje od 14 sekundi. Pritisnete transkripciju, pričekate jedan udah i tekst je tu.
Usporedite to s Whisperovim 2 minute i 4 sekunde ili starim Qwen3 od 73 sekunde. Arhitektura je važnija od broja parametara.
Službeni benchmark zaključivanja iz članka FunAudioLLM: SenseVoice-Small obrađuje 10 s zvuka za 70 ms (A800 GPU). Whisper-Large-V3 treba 1.281 ms. To je 18× razlika u sirovoj latenciji zaključivanja.
| Model | Vrijeme učitavanja | Memorija | Veličina preuzimanja |
|---|---|---|---|
| Parakeet V3 | 0,77 s | ~800 MB | 465 MB |
| SenseVoice Small | 0,81 s | ~700 MB | 827 MB |
| Whisper Small | 1,03 s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3,18 s | ~1,6 GB | 3 GB |
* Vrijeme učitavanja i memorija mjereni na Apple M4 Pro, 32 GB.
SenseVoice se učitava za manje od sekunde i koristi manje memorije od Parakeeta. Na 8 GB Macu radi ugodno uz vaše ostale aplikacije.
Zašto je SenseVoice brži: Arhitektura + Runtime
Razlika u brzini između Qwen3-ASR-a i SenseVoicea proizlazi iz dva neovisna čimbenika.
Čimbenik 1: Arhitektura modela. Qwen3-ASR je autoregresivan — generira tekstualne tokene jedan po jedan, svaki ovisi o prethodnom. SenseVoice koristi neautoregresivni (NAR) enkoder koji obrađuje cijeli zvuk paralelno. Sama ova arhitektonska razlika čini SenseVoice temeljno bržim, bez obzira na hardver.
Čimbenik 2: Runtime. Naša integracija Qwen3-ASR koristila je sherpa-onnx koji je radio na CPU-u. SenseVoice radi putem Apple MLX-a, usmjeravajući računanje na GPU. Bi li Qwen3 mogao raditi i na MLX-u? Da — ali bi i dalje bio sporiji od SenseVoicea jer je autoregresivno usko grlo u arhitekturi, a ne u runtimeu.
| Qwen3-ASR (stari) | SenseVoice (novi) | |
|---|---|---|
| Arhitektura | Autoregresivna (token po token) | Neautoregresivna (paralelna) |
| Runtime | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 min kineski | 224 sekunde | 13,83 sekunde |
| Ukupno ubrzanje | polazna točka | 16,2× brže |
| Baza koda | 168 MB C framework + 2.249 redaka Swift | 288 redaka Swift Actor |
* Isti 27-minutni kineski podcast, Apple M4 Pro. Ubrzanje od 16,2× kombinira i arhitektonska (NAR naspram AR) i runtime (GPU naspram CPU) poboljšanja.
Kod je također postao jednostavniji. Nova implementacija SenseVoicea je jedan Swift Actor od 288 redaka koji izravno komunicira s MLX-om, zamjenjujući C framework od 168 MB. Manje koda, manje grešaka, manja aplikacija.
Pet jezika, dobro odrađeno
SenseVoice ne pokušava raditi sve. Podržava pet jezika:
| Jezik | SenseVoice-Small | Whisper-Large-V3 | Pobjednik |
|---|---|---|---|
| Kineski (zh-CN) | 10,78 % CER | 12,55 % CER | SenseVoice (-14 %) |
| Kantonski (yue) | 7,09 % CER | 10,41 % CER | SenseVoice (-32 %) |
| Japanski (ja) | 11,96 % CER | 10,34 % CER | Whisper (blago) |
| Korejski (ko) | 8,28 % CER | 5,59 % CER | Whisper |
| Engleski (en) | 14,71 % WER | 9,39 % WER | Whisper (koristite Parakeet) |
* CommonVoice benchmark, CER = stopa pogreške znakova, WER = stopa pogreške riječi. Niže je bolje. Izvor: članak FunAudioLLM (2024). Latencija zaključivanja SenseVoice-Small: 70 ms za 10 s zvuka (A800 GPU), više od 15× brže od Whisper-Large-V3.
CommonVoice benchmark: SenseVoice-Small (žuta) naspram Whisper-Small (plava) naspram Whisper-Large-V3 (narančasta). Niže je bolje. Izvor: članak FunAudioLLM
Brojevi pričaju poštenu priču. SenseVoice nadmašuje Whisper u točnosti kineskog i kantonskog s značajnom razlikom, dok je Whisper točniji za japanski, korejski i engleski. No SenseVoice je više od 15× brži od Whisper-Large-V3. Za većinu stvarne upotrebe, razlika u brzini važnija je od nekoliko postotnih bodova točnosti.
Rezultat za kantonski zaslužuje posebnu pozornost. Whisper-Small postiže 38,97 % CER za kantonski — gotovo neupotrebljivo. Čak i Whisper-Large-V3 postiže samo 10,41 %. SenseVoice postiže 7,09 %. Prije SenseVoicea nije postojao dobar način za lokalno transkribiranje kantonskog na Macu. Ako govorite kantonski, ovaj model postoji za vas.
Transkripcija korejskog pomoću SenseVoicea: uvoz videa s titlovima s vremenskim oznakama
Test u stvarnom svijetu: 27-minutni kineski podcast
Transkribovali smo 27-minutnu epizodu Thirteen Invitations (十三邀), kineskog intervju podcasta, s SenseVoiceom i Whisper Large V3 Turbo na istom M4 Pro. ElevenLabs Scribe (oblak) služio je kao referenca. Oba modela na uređaju rade otprilike isti broj pogrešaka, ali različitih vrsta:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| Vrijeme | 13,83 s | 2 min 4 s |
| Pogreške (uzorak od 5 min) | ~15–20 | ~12–15 |
| Najgora pogreška | 时差→食堂 (vremenska razlika→kantina) | 西昌→西藏 (grad Xichang→Tibet, 4.000 km pogreška) |
| Uzorak pogrešaka | Zamjene homofona | Geografske/činjenične pogreške |
* Ručna usporedba s ElevenLabs Scribe (oblak referenca, također nesavršena). Oba modela na uređaju ispravno su napisala „根深蒂固" gdje je Scribe pogriješio.
Usporediva točnost. 9× brže. Za transkripciju kineskog u stvarnom svijetu, SenseVoice vam daje upotrebljiv transkript prije nego Whisper završi učitavanje.
Kada koristiti koji model
Whisper Notes za Mac sada dolazi s četiri govorna modela. Svaki je optimiziran za različite scenarije:
| Trebate... | Koristite ovaj model | Zašto |
|---|---|---|
| Engleski ili europske jezike, maksimalnu brzinu | Parakeet V3 | 103× stvarno vrijeme, najniža stopa pogreške. Zadano. |
| Kineski, japanski, korejski ili kantonski | SenseVoice Small | 52–118× stvarno vrijeme. Jedini model s podrškom za kantonski. |
| Bilo koji od 99+ jezika (arapski, tajlandski, ruski itd.) | Whisper Large V3 Turbo | Najšira jezična podrška. Sporiji ali univerzalan. |
| Manje korištenje memorije (stariji Macovi) | Whisper Small | 487 MB memorije. Dobro za 8 GB Macove s drugim aplikacijama. |
Postavke → Model transkripcije: odaberite pravi motor za svoj jezik
Odabir modela u Postavkama prikazuje sve četiri opcije s veličinama preuzimanja, brojem jezika i zahtjevima za memorijom. SenseVoice se preuzima pri prvom korištenju (~827 MB) i ostaje na vašem uređaju.
Kompromisi
SenseVoice nije univerzalni model. Evo što ne može:
• Samo 5 jezika. Ako trebate tajlandski, ruski, arapski, hindski ili bilo koji od ostalih 90+ jezika koje Whisper podržava, ostanite na Whisperu.
• Samo Mac. SenseVoice radi putem Apple MLX-a koji zahtijeva macOS. Nije dostupan na iPhoneu. Korisnici iOS-a imaju Parakeet (za europske jezike) i Whisper.
• Problem s tihim zvukom. Tijekom vrlo kratkih ili vrlo tihih segmenata, SenseVoice se ponekad može vratiti na kineski izlaz bez obzira na odabrani jezik. Ručno postavljanje jezika (umjesto "Auto") smanjuje ovo.
• Bez streaminga. Za razliku od Whisperovog streaming načina, SenseVoice obrađuje cijeli zvuk nakon snimanja. Za duge datoteke, automatski segmentira na točkama tišine i prikazuje rezultate postupno.
To su arhitektonska ograničenja, ne greške. Model treniran na 5 jezika izuzetno dobro radi tih 5 jezika. Whisperova podrška za 99+ jezika dolazi sa sporijim brzinama i višim stopama pogreške za bilo koji pojedinačni jezik.
Isprobajte
SenseVoice je dostupan u Whisper Notes za Mac verzija 1.4.8 i novija. Preuzmite ga iz Postavke → Model transkripcije → SenseVoice Small (~827 MB). Zahtijeva Apple Silicon Mac (M1 ili noviji).
Ako koristite Parakeet V3 i diktirate uglavnom na engleskom, nema potrebe za prebacivanjem. SenseVoice je za situacije kad vam treba kineski, japanski, korejski ili kantonski — i želite to brzo.
Kompletna evidencija promjena: whispernotes.app/changelog
Pitanja ili povratne informacije: mac@whispernotes.app