SenseVoice: Transkripsi Cina, Jepun & Korea 52× Lebih Pantas di Mac

TL;DR — Perbandingan Tiga Model Mac

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 minit Inggeris	2.91s (103×)	5.8s (52×)	20.92s (14.3×)
27 minit Mandarin	10.10s (161×)	13.83s (118×)	2 min 4s (13.1×)
Bahasa	25 (Eropah)	5 (zh, en, ja, ko, yue)	99+
Muat turun	465 MB	827 MB	1.5 GB
Memori	~800 MB	~700 MB	~1.6 GB
Terbaik untuk	Inggeris & Eropah	Mandarin, Jepun, Korea, Kantonis	Semua bahasa lain (99+)

* Penanda aras kelajuan pada Apple M4 Pro, 32 GB. Podcast Inggeris 5 minit dan podcast Mandarin 27 minit. Faktor masa nyata = tempoh audio ÷ masa pemprosesan (lebih tinggi = lebih cepat). SenseVoice hanya untuk macOS. iOS menggunakan Parakeet (melalui ANE) dan Whisper.

Bermula dari versi 1.4.8, Whisper Notes untuk Mac menggunakan SenseVoice Small sebagai enjin khusus untuk transkripsi Mandarin, Jepun, Korea, dan Kantonis. Ia menggantikan Qwen3-ASR dan berjalan pada GPU Apple melalui MLX dan bukannya CPU — memproses podcast Mandarin 27 minit dalam 13.83 saat berbanding 3 minit 44 saat.

Mengapa Kami Menggantikan Qwen3-ASR

Qwen3-ASR adalah model yang baik. Ia menyokong 30 bahasa serta 22 dialek Mandarin, dan ketepatan Mandarinnya hampir setanding yang terbaik. Tetapi ia mempunyai masalah yang semakin teruk apabila audio semakin panjang: kelajuan.

Qwen3 menggunakan seni bina autoregressive — pendekatan yang sama seperti Whisper, memproses audio bingkai demi bingkai, tidak pernah melompat ke hadapan. Untuk podcast Mandarin 27 minit, ia mengambil masa 73 saat. Boleh digunakan, tetapi bukan pengalaman keputusan serta-merta yang Parakeet V3 berikan untuk bahasa Inggeris.

Isu yang lebih mendalam terletak pada infrastruktur kami. Integrasi Qwen3 menggunakan sherpa-onnx, perpustakaan C dengan Swift wrapper 2,249 baris yang menghalakan semuanya melalui CPU. GPU Mac tidak digunakan langsung.

SenseVoice menyelesaikan kedua-dua masalah. Seni bina non-autoregressive untuk kelajuan. Apple MLX untuk pecutan GPU. Hasilnya: peningkatan kelajuan 16.2× pada perkakasan yang sama, dengan kod sumber dikurangkan dari 2,249 baris kepada 288.

Penanda Aras

Ketiga-tiga model berjalan pada Apple M4 Pro yang sama, fail audio yang sama, keadaan yang sama. Tiada awan. Tiada internet. Hanya silikon.

Model	5 minit Inggeris	27 minit Mandarin	Kelajuan (RTFx)
Parakeet V3	2.91s	10.10s	103–161×
SenseVoice Small	5.8s	13.83s	52–118×
Whisper Large V3 Turbo	20.92s	2 min 4s	13–14×
Qwen3-ASR (dialih keluar)	—	73s	4.7×

SenseVoice lebih kurang separuh kelajuan Parakeet V3 — tetapi masih sangat pantas. Podcast 27 minit selesai dalam kurang dari 14 saat. Anda tekan transkripsi, tarik nafas sekali, dan teks sudah ada.

Bandingkan dengan Whisper pada 2 minit 4 saat, atau Qwen3 lama pada 73 saat. Seni bina lebih penting daripada bilangan parameter.

Jadual perbandingan kelajuan inferens rasmi daripada kertas FunAudioLLM: SenseVoice-Small (70ms per 10s audio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - menunjukkan seni bina model, parameter, bahasa disokong, RTF, dan kependaman

Penanda aras inferens rasmi daripada kertas FunAudioLLM: SenseVoice-Small memproses 10s audio dalam 70ms (A800 GPU). Whisper-Large-V3 mengambil 1,281ms. Perbezaan 18× dalam kependaman inferens mentah.

Model	Masa Muat	Memori	Saiz Muat Turun
Parakeet V3	0.77s	~800 MB	465 MB
SenseVoice Small	0.81s	~700 MB	827 MB
Whisper Small	1.03s	~487 MB	600 MB
Whisper Large V3 Turbo	3.18s	~1.6 GB	3 GB

* Masa muat dan memori diukur pada Apple M4 Pro, 32 GB.

SenseVoice dimuat dalam kurang dari satu saat dan menggunakan memori lebih sedikit daripada Parakeet. Pada Mac 8 GB, ia berjalan selesa bersama aplikasi lain anda.

Mengapa SenseVoice Lebih Pantas: Seni Bina + Runtime

Jurang kelajuan antara Qwen3-ASR dan SenseVoice datang dari dua faktor yang bebas.

Faktor 1: Seni bina model. Qwen3-ASR adalah autoregressive — ia menjana token satu per satu, setiap satu bergantung pada yang sebelumnya. SenseVoice menggunakan pengekod non-autoregressive (NAR) yang memproses seluruh audio secara selari. Perbezaan seni bina ini sahaja menjadikan SenseVoice secara asasnya lebih pantas, tanpa mengira perkakasan.

Faktor 2: Runtime. Integrasi Qwen3-ASR kami menggunakan sherpa-onnx, yang berjalan pada CPU. SenseVoice berjalan melalui Apple MLX, menghalakan pengiraan ke GPU. Bolehkah Qwen3 juga berjalan pada MLX? Ya — tetapi ia masih akan lebih perlahan daripada SenseVoice kerana kesesakan autoregressive terletak pada seni bina, bukan runtime.

	Qwen3-ASR (lama)	SenseVoice (baharu)
Seni bina	Autoregressive (token demi token)	Non-autoregressive (selari)
Runtime	sherpa-onnx (CPU)	Apple MLX (GPU)
27 minit Mandarin	224 saat	13.83 saat
Pecutan gabungan	garis asas	16.2× lebih pantas
Kod sumber	Rangka kerja C 168 MB + 2,249 baris Swift	288 baris Swift Actor

* Podcast Mandarin 27 minit yang sama, Apple M4 Pro. Pecutan 16.2× menggabungkan peningkatan seni bina (NAR vs AR) dan runtime (GPU vs CPU).

Kod juga menjadi lebih ringkas. Pelaksanaan SenseVoice baharu adalah satu Swift Actor 288 baris yang berkomunikasi terus dengan MLX, menggantikan rangka kerja C 168 MB. Kurang kod, kurang pepijat, aplikasi lebih kecil.

Lima Bahasa, Dilakukan dengan Baik

SenseVoice tidak cuba melakukan semuanya. Ia mengendalikan lima bahasa:

Bahasa	SenseVoice-Small	Whisper-Large-V3	Pemenang
Mandarin (zh-CN)	10.78% CER	12.55% CER	SenseVoice (-14%)
Kantonis (yue)	7.09% CER	10.41% CER	SenseVoice (-32%)
Jepun (ja)	11.96% CER	10.34% CER	Whisper (sedikit)
Korea (ko)	8.28% CER	5.59% CER	Whisper
Inggeris (en)	14.71% WER	9.39% WER	Whisper (gunakan Parakeet)

* Penanda aras CommonVoice, CER = Kadar Ralat Aksara, WER = Kadar Ralat Perkataan. Lebih rendah lebih baik. Sumber: kertas FunAudioLLM (2024). Kependaman inferens SenseVoice-Small: 70ms per 10s audio (A800 GPU), lebih 15× lebih pantas daripada Whisper-Large-V3.

Perbandingan ketepatan SenseVoice vs Whisper pada penanda aras CommonVoice untuk Mandarin, Kantonis, Inggeris, Jepun, Korea, dan 25 bahasa lain - carta bar WER/CER

Penanda aras CommonVoice: SenseVoice-Small (kuning) vs Whisper-Small (biru) vs Whisper-Large-V3 (oren). Lebih rendah lebih baik. Sumber: kertas FunAudioLLM

Nombor bercerita dengan jujur. SenseVoice mengatasi Whisper dalam ketepatan Mandarin dan Kantonis dengan margin yang ketara, manakala Whisper lebih tepat untuk Jepun, Korea, dan Inggeris. Tetapi SenseVoice lebih 15× lebih pantas daripada Whisper-Large-V3. Untuk kebanyakan penggunaan sebenar, perbezaan kelajuan lebih penting daripada beberapa peratus ketepatan.

Keputusan Kantonis patut diketengahkan secara berasingan. Whisper-Small mendapat 38.97% CER untuk Kantonis — hampir tidak boleh digunakan. Malah Whisper-Large-V3 hanya mencapai 10.41%. SenseVoice mencapai 7.09%. Sebelum SenseVoice, tiada cara yang baik untuk mentranskrip Kantonis secara tempatan di Mac. Jika anda bertutur Kantonis, model ini wujud untuk anda.

Keputusan transkripsi Korea SenseVoice dalam Whisper Notes untuk Mac menunjukkan teks Korea yang tepat daripada video

Transkripsi Korea dengan SenseVoice: import video dengan sari kata bertanda masa

Ujian Dunia Sebenar: Podcast Mandarin 27 Minit

Kami mentranskrip episod 27 minit Thirteen Invitations (十三邀), podcast temu bual Mandarin, dengan kedua-dua SenseVoice dan Whisper Large V3 Turbo pada M4 Pro yang sama. ElevenLabs Scribe (awan) sebagai rujukan. Kedua-dua model pada peranti membuat jumlah ralat yang hampir sama, tetapi jenis yang berbeza:

	SenseVoice	Whisper Large V3
Masa	13.83s	2 min 4s
Ralat (sampel 5 minit)	~15–20	~12–15
Ralat terburuk	时差→食堂 (zon masa→kantin)	西昌→西藏 (bandar Xīchāng→Tibet, meleset 4,000 km)
Corak ralat	Pertukaran homofon	Ralat geografi/fakta

* Perbandingan manual terhadap ElevenLabs Scribe (rujukan awan, juga tidak sempurna). Kedua-dua model pada peranti menulis "根深蒂固" dengan betul manakala Scribe silap.

Ketepatan setanding. 9× lebih pantas. Untuk transkripsi Mandarin dunia sebenar, SenseVoice memberi anda transkrip yang boleh digunakan sebelum Whisper selesai memuatkan.

Bila Menggunakan Model Mana

Whisper Notes untuk Mac kini memuatkan empat model suara. Setiap satu dioptimumkan untuk senario berbeza:

Anda perlukan...	Gunakan model ini	Sebab
Inggeris atau bahasa Eropah, kelajuan maksimum	Parakeet V3	103× masa nyata, kadar ralat terendah. Lalai.
Mandarin, Jepun, Korea, atau Kantonis	SenseVoice Small	52–118× masa nyata. Satu-satunya model dengan sokongan Kantonis.
Mana-mana daripada 99+ bahasa (Arab, Thai, Rusia, dll.)	Whisper Large V3 Turbo	Sokongan bahasa terluas. Lebih perlahan tetapi universal.
Penggunaan memori rendah (Mac lama)	Whisper Small	487 MB memori. Sesuai untuk Mac 8 GB.

Pemilih model Whisper Notes Mac menunjukkan Parakeet V3, SenseVoice Small, Whisper Small, dan Whisper Large V3 Turbo dengan saiz muat turun dan sokongan bahasa

Tetapan → Model Transkripsi: pilih enjin yang sesuai untuk bahasa anda

Pemilih model dalam Tetapan menunjukkan keempat-empat pilihan dengan saiz muat turun, bilangan bahasa, dan keperluan memori. SenseVoice dimuat turun pada penggunaan pertama (~827 MB) dan kekal pada peranti anda.

Kompromi

SenseVoice bukan model universal. Berikut yang tidak boleh dilakukannya:

• Hanya 5 bahasa. Jika anda perlukan Thai, Rusia, Arab, Hindi, atau mana-mana daripada 90+ bahasa lain yang disokong Whisper, gunakan Whisper.

• Mac sahaja. SenseVoice berjalan melalui Apple MLX, yang memerlukan macOS. Tidak tersedia di iPhone. Pengguna iOS mempunyai Parakeet (untuk bahasa Eropah) dan Whisper.

• Keanehan audio senyap. Semasa segmen yang sangat pendek atau sangat senyap, SenseVoice kadang-kadang boleh kembali kepada output Mandarin tanpa mengira bahasa yang dipilih. Menetapkan bahasa secara manual (bukan "Auto") mengurangkan ini.

• Tiada penstriman. Tidak seperti mod penstriman Whisper, SenseVoice memproses seluruh audio selepas rakaman. Untuk fail panjang, ia memotong secara automatik pada titik senyap dan menunjukkan keputusan secara progresif.

Ini adalah kekangan seni bina, bukan pepijat. Model yang dilatih pada 5 bahasa melakukan 5 bahasa itu dengan sangat baik. Sokongan 99+ bahasa Whisper datang dengan kelajuan lebih perlahan dan kadar ralat lebih tinggi pada setiap bahasa individu.

Cuba Sekarang

SenseVoice tersedia dalam Whisper Notes untuk Mac v1.4.8 dan kemudian. Muat turun dari Tetapan → Model Transkripsi → SenseVoice Small (~827 MB). Memerlukan Mac Apple Silicon (M1 atau kemudian).

Jika anda menggunakan Parakeet V3 dan kebanyakannya mendiktekan dalam bahasa Inggeris, tidak perlu bertukar. SenseVoice untuk apabila anda perlukan Mandarin, Jepun, Korea, atau Kantonis — dan anda mahukannya pantas.

Muat Turun untuk Mac

Log perubahan penuh: whispernotes.app/changelog

Soalan atau maklum balas: mac@whispernotes.app