TL;DR — Perbandingan Tiga Model Mac
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 minit Inggeris | 2.91s (103×) | 5.8s (52×) | 20.92s (14.3×) |
| 27 minit Mandarin | 10.10s (161×) | 13.83s (118×) | 2 min 4s (13.1×) |
| Bahasa | 25 (Eropah) | 5 (zh, en, ja, ko, yue) | 99+ |
| Muat turun | 465 MB | 827 MB | 1.5 GB |
| Memori | ~800 MB | ~700 MB | ~1.6 GB |
| Terbaik untuk | Inggeris & Eropah | Mandarin, Jepun, Korea, Kantonis | Semua bahasa lain (99+) |
* Penanda aras kelajuan pada Apple M4 Pro, 32 GB. Podcast Inggeris 5 minit dan podcast Mandarin 27 minit. Faktor masa nyata = tempoh audio ÷ masa pemprosesan (lebih tinggi = lebih cepat). SenseVoice hanya untuk macOS. iOS menggunakan Parakeet (melalui ANE) dan Whisper.
Bermula dari versi 1.4.8, Whisper Notes untuk Mac menggunakan SenseVoice Small sebagai enjin khusus untuk transkripsi Mandarin, Jepun, Korea, dan Kantonis. Ia menggantikan Qwen3-ASR dan berjalan pada GPU Apple melalui MLX dan bukannya CPU — memproses podcast Mandarin 27 minit dalam 13.83 saat berbanding 3 minit 44 saat.
Mengapa Kami Menggantikan Qwen3-ASR
Qwen3-ASR adalah model yang baik. Ia menyokong 30 bahasa serta 22 dialek Mandarin, dan ketepatan Mandarinnya hampir setanding yang terbaik. Tetapi ia mempunyai masalah yang semakin teruk apabila audio semakin panjang: kelajuan.
Qwen3 menggunakan seni bina autoregressive — pendekatan yang sama seperti Whisper, memproses audio bingkai demi bingkai, tidak pernah melompat ke hadapan. Untuk podcast Mandarin 27 minit, ia mengambil masa 73 saat. Boleh digunakan, tetapi bukan pengalaman keputusan serta-merta yang Parakeet V3 berikan untuk bahasa Inggeris.
Isu yang lebih mendalam terletak pada infrastruktur kami. Integrasi Qwen3 menggunakan sherpa-onnx, perpustakaan C dengan Swift wrapper 2,249 baris yang menghalakan semuanya melalui CPU. GPU Mac tidak digunakan langsung.
SenseVoice menyelesaikan kedua-dua masalah. Seni bina non-autoregressive untuk kelajuan. Apple MLX untuk pecutan GPU. Hasilnya: peningkatan kelajuan 16.2× pada perkakasan yang sama, dengan kod sumber dikurangkan dari 2,249 baris kepada 288.
Penanda Aras
Ketiga-tiga model berjalan pada Apple M4 Pro yang sama, fail audio yang sama, keadaan yang sama. Tiada awan. Tiada internet. Hanya silikon.
| Model | 5 minit Inggeris | 27 minit Mandarin | Kelajuan (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2.91s | 10.10s | 103–161× |
| SenseVoice Small | 5.8s | 13.83s | 52–118× |
| Whisper Large V3 Turbo | 20.92s | 2 min 4s | 13–14× |
| Qwen3-ASR (dialih keluar) | — | 73s | 4.7× |
SenseVoice lebih kurang separuh kelajuan Parakeet V3 — tetapi masih sangat pantas. Podcast 27 minit selesai dalam kurang dari 14 saat. Anda tekan transkripsi, tarik nafas sekali, dan teks sudah ada.
Bandingkan dengan Whisper pada 2 minit 4 saat, atau Qwen3 lama pada 73 saat. Seni bina lebih penting daripada bilangan parameter.
Penanda aras inferens rasmi daripada kertas FunAudioLLM: SenseVoice-Small memproses 10s audio dalam 70ms (A800 GPU). Whisper-Large-V3 mengambil 1,281ms. Perbezaan 18× dalam kependaman inferens mentah.
| Model | Masa Muat | Memori | Saiz Muat Turun |
|---|---|---|---|
| Parakeet V3 | 0.77s | ~800 MB | 465 MB |
| SenseVoice Small | 0.81s | ~700 MB | 827 MB |
| Whisper Small | 1.03s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3.18s | ~1.6 GB | 3 GB |
* Masa muat dan memori diukur pada Apple M4 Pro, 32 GB.
SenseVoice dimuat dalam kurang dari satu saat dan menggunakan memori lebih sedikit daripada Parakeet. Pada Mac 8 GB, ia berjalan selesa bersama aplikasi lain anda.
Mengapa SenseVoice Lebih Pantas: Seni Bina + Runtime
Jurang kelajuan antara Qwen3-ASR dan SenseVoice datang dari dua faktor yang bebas.
Faktor 1: Seni bina model. Qwen3-ASR adalah autoregressive — ia menjana token satu per satu, setiap satu bergantung pada yang sebelumnya. SenseVoice menggunakan pengekod non-autoregressive (NAR) yang memproses seluruh audio secara selari. Perbezaan seni bina ini sahaja menjadikan SenseVoice secara asasnya lebih pantas, tanpa mengira perkakasan.
Faktor 2: Runtime. Integrasi Qwen3-ASR kami menggunakan sherpa-onnx, yang berjalan pada CPU. SenseVoice berjalan melalui Apple MLX, menghalakan pengiraan ke GPU. Bolehkah Qwen3 juga berjalan pada MLX? Ya — tetapi ia masih akan lebih perlahan daripada SenseVoice kerana kesesakan autoregressive terletak pada seni bina, bukan runtime.
| Qwen3-ASR (lama) | SenseVoice (baharu) | |
|---|---|---|
| Seni bina | Autoregressive (token demi token) | Non-autoregressive (selari) |
| Runtime | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 minit Mandarin | 224 saat | 13.83 saat |
| Pecutan gabungan | garis asas | 16.2× lebih pantas |
| Kod sumber | Rangka kerja C 168 MB + 2,249 baris Swift | 288 baris Swift Actor |
* Podcast Mandarin 27 minit yang sama, Apple M4 Pro. Pecutan 16.2× menggabungkan peningkatan seni bina (NAR vs AR) dan runtime (GPU vs CPU).
Kod juga menjadi lebih ringkas. Pelaksanaan SenseVoice baharu adalah satu Swift Actor 288 baris yang berkomunikasi terus dengan MLX, menggantikan rangka kerja C 168 MB. Kurang kod, kurang pepijat, aplikasi lebih kecil.
Lima Bahasa, Dilakukan dengan Baik
SenseVoice tidak cuba melakukan semuanya. Ia mengendalikan lima bahasa:
| Bahasa | SenseVoice-Small | Whisper-Large-V3 | Pemenang |
|---|---|---|---|
| Mandarin (zh-CN) | 10.78% CER | 12.55% CER | SenseVoice (-14%) |
| Kantonis (yue) | 7.09% CER | 10.41% CER | SenseVoice (-32%) |
| Jepun (ja) | 11.96% CER | 10.34% CER | Whisper (sedikit) |
| Korea (ko) | 8.28% CER | 5.59% CER | Whisper |
| Inggeris (en) | 14.71% WER | 9.39% WER | Whisper (gunakan Parakeet) |
* Penanda aras CommonVoice, CER = Kadar Ralat Aksara, WER = Kadar Ralat Perkataan. Lebih rendah lebih baik. Sumber: kertas FunAudioLLM (2024). Kependaman inferens SenseVoice-Small: 70ms per 10s audio (A800 GPU), lebih 15× lebih pantas daripada Whisper-Large-V3.
Penanda aras CommonVoice: SenseVoice-Small (kuning) vs Whisper-Small (biru) vs Whisper-Large-V3 (oren). Lebih rendah lebih baik. Sumber: kertas FunAudioLLM
Nombor bercerita dengan jujur. SenseVoice mengatasi Whisper dalam ketepatan Mandarin dan Kantonis dengan margin yang ketara, manakala Whisper lebih tepat untuk Jepun, Korea, dan Inggeris. Tetapi SenseVoice lebih 15× lebih pantas daripada Whisper-Large-V3. Untuk kebanyakan penggunaan sebenar, perbezaan kelajuan lebih penting daripada beberapa peratus ketepatan.
Keputusan Kantonis patut diketengahkan secara berasingan. Whisper-Small mendapat 38.97% CER untuk Kantonis — hampir tidak boleh digunakan. Malah Whisper-Large-V3 hanya mencapai 10.41%. SenseVoice mencapai 7.09%. Sebelum SenseVoice, tiada cara yang baik untuk mentranskrip Kantonis secara tempatan di Mac. Jika anda bertutur Kantonis, model ini wujud untuk anda.
Transkripsi Korea dengan SenseVoice: import video dengan sari kata bertanda masa
Ujian Dunia Sebenar: Podcast Mandarin 27 Minit
Kami mentranskrip episod 27 minit Thirteen Invitations (十三邀), podcast temu bual Mandarin, dengan kedua-dua SenseVoice dan Whisper Large V3 Turbo pada M4 Pro yang sama. ElevenLabs Scribe (awan) sebagai rujukan. Kedua-dua model pada peranti membuat jumlah ralat yang hampir sama, tetapi jenis yang berbeza:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| Masa | 13.83s | 2 min 4s |
| Ralat (sampel 5 minit) | ~15–20 | ~12–15 |
| Ralat terburuk | 时差→食堂 (zon masa→kantin) | 西昌→西藏 (bandar Xīchāng→Tibet, meleset 4,000 km) |
| Corak ralat | Pertukaran homofon | Ralat geografi/fakta |
* Perbandingan manual terhadap ElevenLabs Scribe (rujukan awan, juga tidak sempurna). Kedua-dua model pada peranti menulis "根深蒂固" dengan betul manakala Scribe silap.
Ketepatan setanding. 9× lebih pantas. Untuk transkripsi Mandarin dunia sebenar, SenseVoice memberi anda transkrip yang boleh digunakan sebelum Whisper selesai memuatkan.
Bila Menggunakan Model Mana
Whisper Notes untuk Mac kini memuatkan empat model suara. Setiap satu dioptimumkan untuk senario berbeza:
| Anda perlukan... | Gunakan model ini | Sebab |
|---|---|---|
| Inggeris atau bahasa Eropah, kelajuan maksimum | Parakeet V3 | 103× masa nyata, kadar ralat terendah. Lalai. |
| Mandarin, Jepun, Korea, atau Kantonis | SenseVoice Small | 52–118× masa nyata. Satu-satunya model dengan sokongan Kantonis. |
| Mana-mana daripada 99+ bahasa (Arab, Thai, Rusia, dll.) | Whisper Large V3 Turbo | Sokongan bahasa terluas. Lebih perlahan tetapi universal. |
| Penggunaan memori rendah (Mac lama) | Whisper Small | 487 MB memori. Sesuai untuk Mac 8 GB. |
Tetapan → Model Transkripsi: pilih enjin yang sesuai untuk bahasa anda
Pemilih model dalam Tetapan menunjukkan keempat-empat pilihan dengan saiz muat turun, bilangan bahasa, dan keperluan memori. SenseVoice dimuat turun pada penggunaan pertama (~827 MB) dan kekal pada peranti anda.
Kompromi
SenseVoice bukan model universal. Berikut yang tidak boleh dilakukannya:
• Hanya 5 bahasa. Jika anda perlukan Thai, Rusia, Arab, Hindi, atau mana-mana daripada 90+ bahasa lain yang disokong Whisper, gunakan Whisper.
• Mac sahaja. SenseVoice berjalan melalui Apple MLX, yang memerlukan macOS. Tidak tersedia di iPhone. Pengguna iOS mempunyai Parakeet (untuk bahasa Eropah) dan Whisper.
• Keanehan audio senyap. Semasa segmen yang sangat pendek atau sangat senyap, SenseVoice kadang-kadang boleh kembali kepada output Mandarin tanpa mengira bahasa yang dipilih. Menetapkan bahasa secara manual (bukan "Auto") mengurangkan ini.
• Tiada penstriman. Tidak seperti mod penstriman Whisper, SenseVoice memproses seluruh audio selepas rakaman. Untuk fail panjang, ia memotong secara automatik pada titik senyap dan menunjukkan keputusan secara progresif.
Ini adalah kekangan seni bina, bukan pepijat. Model yang dilatih pada 5 bahasa melakukan 5 bahasa itu dengan sangat baik. Sokongan 99+ bahasa Whisper datang dengan kelajuan lebih perlahan dan kadar ralat lebih tinggi pada setiap bahasa individu.
Cuba Sekarang
SenseVoice tersedia dalam Whisper Notes untuk Mac v1.4.8 dan kemudian. Muat turun dari Tetapan → Model Transkripsi → SenseVoice Small (~827 MB). Memerlukan Mac Apple Silicon (M1 atau kemudian).
Jika anda menggunakan Parakeet V3 dan kebanyakannya mendiktekan dalam bahasa Inggeris, tidak perlu bertukar. SenseVoice untuk apabila anda perlukan Mandarin, Jepun, Korea, atau Kantonis — dan anda mahukannya pantas.
Log perubahan penuh: whispernotes.app/changelog
Soalan atau maklum balas: mac@whispernotes.app