SenseVoice: Transcripció 52× més ràpida per a xinès, japonès i coreà a Mac

TL;DR -- Tres models de Mac comparats

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 min angles	2.91s (103×)	5.8s (52×)	20.92s (14.3×)
27 min xines	10.10s (161×)	13.83s (118×)	2 min 4s (13.1×)
Idiomes	25 (europeus)	5 (zh, en, ja, ko, yue)	99+
Descàrrega	465 MB	827 MB	1.5 GB
Memòria	~800 MB	~700 MB	~1.6 GB
Millor per a	Anglès & europeus	Xinès, japonès, coreà, cantonès	Tot la resta (99+ idiomes)

* Proves de velocitat a Apple M4 Pro, 32 GB. Podcast de 5 minuts en anglès i podcast de 27 minuts en xinès. Factor de temps real = durada de l'àudio / temps de processament (més alt = més ràpid). SenseVoice és només per a macOS. iOS utilitza Parakeet (via ANE) i Whisper.

A partir de la versió 1.4.8, Whisper Notes per a Mac inclou SenseVoice Small com a motor dedicat per a la transcripció en xinès, japonès, coreà i cantonès. Substitueix Qwen3-ASR i funciona a la GPU d'Apple via MLX en lloc de la CPU -- processant un podcast xinès de 27 minuts en 13,83 segons en lloc de 3 minuts i 44 segons.

Per què hem substituït Qwen3-ASR

Qwen3-ASR era un model sòlid. Suportava 30 idiomes més 22 dialectes xinesos, i la seva precisió per al xinès era propera a l'estat de l'art. Però tenia un problema que empitjorava com més llarg era l'àudio: la velocitat.

Qwen3 utilitzava una arquitectura autoregressiva -- el mateix enfocament que Whisper, processant l'àudio fotograma a fotograma, sense saltar mai endavant. En un podcast xinès de 27 minuts, trigava 73 segons. Utilitzable, però no l'experiència de resultat instantani que Parakeet V3 ofereix per a l'anglès.

El problema més profund era la nostra infraestructura. La nostra integració de Qwen3 utilitzava sherpa-onnx, una biblioteca en C amb un wrapper de Swift de 2.249 línies que dirigia tot a través dels nuclis de la CPU. La GPU estava ociosa mentre la CPU del teu Mac feia tota la feina.

SenseVoice va resoldre ambdós problemes. Arquitectura no autoregressiva per a la velocitat. Apple MLX per a l'acceleració de GPU. El resultat: una millora de velocitat de 16,2× al mateix maquinari, amb una base de codi reduïda de 2.249 línies a 288.

El benchmark

Els tres models funcionant al mateix Apple M4 Pro, els mateixos fitxers d'àudio, les mateixes condicions. Sense núvol. Sense internet. Només silici.

Model	5 min anglès	27 min xinès	Velocitat (RTFx)
Parakeet V3	2.91s	10.10s	103--161×
SenseVoice Small	5.8s	13.83s	52--118×
Whisper Large V3 Turbo	20.92s	2 min 4s	13--14×
Qwen3-ASR (eliminat)	--	73s	4.7×

SenseVoice és aproximadament la meitat de ràpid que Parakeet V3 -- tot i així extraordinàriament ràpid. Un podcast de 27 minuts es completa en menys de 14 segons. Prems transcriure, esperes un alè, i el text ja hi és.

Compara-ho amb Whisper a 2 minuts i 4 segons, o l'antic Qwen3 a 73 segons. L'arquitectura importa més que el nombre de paràmetres.

Taula oficial de comparació de velocitat d'inferència de l'article FunAudioLLM: SenseVoice-Small (70ms per 10s d'àudio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - arquitectura del model, paràmetres, idiomes suportats, RTF i latència

Benchmark oficial d'inferència de l'article FunAudioLLM: SenseVoice-Small processa 10s d'àudio en 70ms (A800 GPU). Whisper-Large-V3 triga 1.281ms. Això és una diferència de 18× en latència bruta d'inferència.

Model	Temps de càrrega	Memòria	Mida de descàrrega
Parakeet V3	0.77s	~800 MB	465 MB
SenseVoice Small	0.81s	~700 MB	827 MB
Whisper Small	1.03s	~487 MB	600 MB
Whisper Large V3 Turbo	3.18s	~1.6 GB	3 GB

* Temps de càrrega i memòria mesurats a Apple M4 Pro, 32 GB.

SenseVoice es carrega en menys d'un segon i utilitza menys memòria que Parakeet. En un Mac de 8 GB, funciona còmodament juntament amb les teves altres aplicacions.

Per què SenseVoice és més ràpid: Arquitectura + Entorn d'execució

La diferència de velocitat entre Qwen3-ASR i SenseVoice prové de dos factors independents.

Factor 1: Arquitectura del model. Qwen3-ASR és autoregressiu -- genera text token a token, cada un dependent de l'anterior. SenseVoice utilitza un codificador no autoregressiu (NAR) que processa tot l'àudio en paral·lel. Aquesta diferència arquitectònica sola fa que SenseVoice sigui fonamentalment més ràpid, independentment del maquinari que utilitzis.

Factor 2: Entorn d'execució. La nostra integració de Qwen3-ASR utilitzava sherpa-onnx, que funcionava a la CPU. SenseVoice funciona a través d'Apple MLX, dirigint els càlculs a la GPU. Podria Qwen3 també funcionar amb MLX? Sí -- però seguiria sent més lent que SenseVoice perquè el coll d'ampolla autoregressiu és a l'arquitectura, no a l'entorn d'execució.

	Qwen3-ASR (antic)	SenseVoice (nou)
Arquitectura	Autoregressiva (token a token)	No autoregressiva (paral·lela)
Entorn d'execució	sherpa-onnx (CPU)	Apple MLX (GPU)
27 min xinès	224 segons	13,83 segons
Acceleració combinada	línia base	16,2× més ràpid
Base de codi	168 MB framework C + 2.249 línies Swift	288 línies Swift Actor

* Mateix podcast xinès de 27 minuts, Apple M4 Pro. L'acceleració de 16,2× combina millores tant arquitectòniques (NAR vs AR) com d'entorn d'execució (GPU vs CPU).

El codi també es va simplificar. La nova implementació de SenseVoice és un únic Swift Actor de 288 línies que es comunica directament amb MLX, substituint un framework C de 168 MB. Menys codi, menys errors, aplicació més petita.

Cinc idiomes, ben fets

SenseVoice no intenta fer-ho tot. Gestiona cinc idiomes:

Idioma	SenseVoice-Small	Whisper-Large-V3	Guanyador
Xinès (zh-CN)	10.78% CER	12.55% CER	SenseVoice (-14%)
Cantonès (yue)	7.09% CER	10.41% CER	SenseVoice (-32%)
Japonès (ja)	11.96% CER	10.34% CER	Whisper (lleuger)
Coreà (ko)	8.28% CER	5.59% CER	Whisper
Anglès (en)	14.71% WER	9.39% WER	Whisper (utilitza Parakeet)

* Benchmark CommonVoice, CER = Character Error Rate, WER = Word Error Rate. Més baix és millor. Font: article FunAudioLLM (2024). Latència d'inferència de SenseVoice-Small: 70ms per 10s d'àudio (A800 GPU), més de 15× més ràpid que Whisper-Large-V3.

Comparació de precisió SenseVoice vs Whisper al benchmark CommonVoice per a xinès, cantonès, anglès, japonès, coreà i 25 idiomes més - gràfic de barres WER/CER

Benchmark CommonVoice: SenseVoice-Small (groc) vs Whisper-Small (blau) vs Whisper-Large-V3 (taronja). Més baix és millor. Font: article FunAudioLLM

Els números expliquen una història honesta. SenseVoice supera Whisper en precisió per al xinès i cantonès amb un marge significatiu, mentre que Whisper és més precís per al japonès, coreà i anglès. Però SenseVoice és més de 15× més ràpid que Whisper-Large-V3. Per a la majoria d'usos reals, la diferència de velocitat importa més que uns quants punts percentuals de precisió.

El resultat del cantonès mereix ser destacat per separat. Whisper-Small obté un 38,97% de CER en cantonès -- gairebé inutilitzable. Fins i tot Whisper-Large-V3 només aconsegueix un 10,41%. SenseVoice arriba al 7,09%. Abans de SenseVoice, no hi havia una bona manera de transcriure cantonès localment en un Mac. Si parles cantonès, aquest model existeix per a tu.

Resultat de transcripció coreana de SenseVoice a Whisper Notes per a Mac mostrant text coreà precís d'un vídeo

Transcripció coreana amb SenseVoice: importació de vídeo amb subtítols amb marques de temps

Prova real: podcast xinès de 27 minuts

Vam transcriure un episodi de 27 minuts de Thirteen Invitations (十三邀), un podcast d'entrevistes xinès, amb SenseVoice i Whisper Large V3 Turbo al mateix M4 Pro. ElevenLabs Scribe (núvol) va servir com a referència. Ambdós models locals fan aproximadament el mateix nombre d'errors, però de tipus diferents:

	SenseVoice	Whisper Large V3
Temps	13.83s	2 min 4s
Errors (mostra de 5 min)	~15--20	~12--15
Pitjor error	时差→食堂 (zona horària→menjador)	西昌→西藏 (ciutat de Xichang→Tibet, 4.000 km de diferència)
Patró d'errors	Intercanvis d'homòfons	Errors geogràfics/factuals

* Comparació manual contra ElevenLabs Scribe (referència al núvol, també imperfecta). Ambdós models locals van escriure correctament "根深蒂固" on Scribe es va equivocar.

Precisió comparable. 9× més ràpid. Per a la transcripció de xinès al món real, SenseVoice et dóna un transcrit utilitzable abans que Whisper acabi de carregar.

Quan utilitzar quin model

Whisper Notes per a Mac ara inclou quatre models de veu. Cadascun està optimitzat per a escenaris diferents:

Necessites...	Utilitza aquest model	Per què
Anglès o idiomes europeus, velocitat màxima	Parakeet V3	103× temps real, menor taxa d'error. Per defecte.
Xinès, japonès, coreà o cantonès	SenseVoice Small	52--118× temps real. Únic model amb suport per a cantonès.
Qualsevol dels 99+ idiomes (àrab, tailandès, rus, etc.)	Whisper Large V3 Turbo	Suport d'idiomes més ampli. Més lent però universal.
Menor ús de memòria (Macs més antics)	Whisper Small	487 MB de memòria. Bo per a Macs de 8 GB amb altres aplicacions.

Selector de model de Whisper Notes Mac mostrant Parakeet V3, SenseVoice Small, Whisper Small i Whisper Large V3 Turbo amb mides de descàrrega i suport d'idiomes

Configuració → Model de transcripció: tria el motor adequat per al teu idioma

El selector de models a Configuració mostra les quatre opcions amb mides de descàrrega, nombre d'idiomes i requisits de memòria. SenseVoice es descarrega al primer ús (~827 MB) i es queda al teu dispositiu.

Els compromisos

SenseVoice no és un model universal. Això és el que no pot fer:

* Només 5 idiomes. Si necessites tailandès, rus, àrab, hindi o qualsevol dels altres 90+ idiomes que suporta Whisper, queda't amb Whisper.

* Només Mac. SenseVoice funciona via Apple MLX, que requereix macOS. No està disponible a l'iPhone. Els usuaris d'iOS tenen Parakeet (per a idiomes europeus) i Whisper.

* Peculiaritat amb àudio silenciós. Durant segments molt curts o molt silenciosos, SenseVoice pot tornar a sortida en xinès independentment de l'idioma seleccionat. Establir l'idioma manualment (en lloc d'"Auto") redueix això.

* Sense streaming. A diferència del mode de streaming de Whisper, SenseVoice processa l'àudio complet després de la gravació. Per a fitxers llargs, segmenta automàticament als punts de silenci i mostra resultats progressivament.

Aquestes són restriccions arquitectòniques, no errors. Un model entrenat en 5 idiomes fa aquests 5 idiomes extremadament bé. El suport de 99+ idiomes de Whisper ve amb velocitat més lenta i taxes d'error més altes per a cada idioma individual.

Prova'l

SenseVoice està disponible a Whisper Notes per a Mac v1.4.8 i posteriors. Descarrega'l des de Configuració → Model de transcripció → SenseVoice Small (~827 MB). Requereix un Mac amb Apple Silicon (M1 o posterior).

Si estàs amb Parakeet V3 i dictes principalment en anglès, no cal canviar. SenseVoice és per quan necessites xinès, japonès, coreà o cantonès -- i el vols ràpid.

Descarrega per a Mac

Registre de canvis complet: whispernotes.app/changelog

Preguntes o comentaris: mac@whispernotes.app