SenseVoice: Trascrizione 52× più veloce per cinese, giapponese e coreano su Mac | Blog di Whisper Notes: Ultimi aggiornamenti

IN BREVE — Tre modelli Mac a confronto

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 min inglese	2,91s (103×)	5,8s (52×)	20,92s (14,3×)
27 min cinese	10,10s (161×)	13,83s (118×)	2 min 4s (13,1×)
Lingue	25 (europee)	5 (zh, en, ja, ko, yue)	99+
Download	465 MB	827 MB	1,5 GB
Memoria	~800 MB	~700 MB	~1,6 GB
Ideale per	Inglese & europeo	Cinese, giapponese, coreano, cantonese	Tutto il resto (99+ lingue)

* Benchmark di velocità su Apple M4 Pro, 32 GB. Podcast inglese di 5 minuti e podcast cinese di 27 minuti. Fattore tempo reale = durata audio ÷ tempo di elaborazione (maggiore = più veloce). SenseVoice è solo per macOS. iOS utilizza Parakeet (via ANE) e Whisper.

A partire dalla versione 1.4.8, Whisper Notes per Mac include SenseVoice Small come motore dedicato per la trascrizione di cinese, giapponese, coreano e cantonese. Sostituisce Qwen3-ASR e funziona sulla GPU di Apple tramite MLX invece che sulla CPU — elaborando un podcast cinese di 27 minuti in 13,83 secondi anziché 3 minuti e 44 secondi.

Perché abbiamo sostituito Qwen3-ASR

Qwen3-ASR era un modello solido. Supportava 30 lingue più 22 dialetti cinesi, e la sua accuratezza per il cinese era vicina allo stato dell'arte. Ma aveva un problema che peggiorava con la durata dell'audio: la velocità.

Qwen3 utilizzava un'architettura autoregressiva — lo stesso approccio di Whisper, che elabora l'audio fotogramma per fotogramma, senza mai saltare avanti. Su un podcast cinese di 27 minuti, impiegava 73 secondi. Utilizzabile, ma non l'esperienza di risultato istantaneo che Parakeet V3 offre per l'inglese.

Il problema più profondo era la nostra infrastruttura. La nostra integrazione Qwen3 utilizzava sherpa-onnx, una libreria C con un wrapper Swift di 2.249 righe che instradava tutto attraverso i core della CPU. La GPU restava inattiva mentre la CPU del tuo Mac faceva tutto il lavoro.

SenseVoice ha risolto entrambi i problemi. Architettura non autoregressiva per la velocità. Apple MLX per l'accelerazione GPU. Il risultato: un miglioramento di velocità di 16,2× sullo stesso hardware, con un codice ridotto da 2.249 a 288 righe.

Il benchmark

Tutti e tre i modelli eseguiti sullo stesso Apple M4 Pro, stessi file audio, stesse condizioni. Nessun cloud. Nessun internet. Solo silicio.

Modello	5 min inglese	27 min cinese	Velocità (RTFx)
Parakeet V3	2,91s	10,10s	103–161×
SenseVoice Small	5,8s	13,83s	52–118×
Whisper Large V3 Turbo	20,92s	2 min 4s	13–14×
Qwen3-ASR (rimosso)	—	73s	4,7×

SenseVoice è circa la metà della velocità di Parakeet V3 — ma resta straordinariamente veloce. Un podcast di 27 minuti viene completato in meno di 14 secondi. Premi trascrivi, aspetti un respiro, e il testo è lì.

Confrontalo con Whisper a 2 minuti e 4 secondi, o il vecchio Qwen3 a 73 secondi. L'architettura conta più del numero di parametri.

Tabella ufficiale di confronto della velocità di inferenza dal paper FunAudioLLM: SenseVoice-Small (70ms per 10s di audio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - mostra architettura del modello, parametri, lingue supportate, RTF e latenza

Benchmark ufficiale di inferenza dal paper FunAudioLLM: SenseVoice-Small elabora 10s di audio in 70ms (GPU A800). Whisper-Large-V3 impiega 1.281ms. È una differenza di 18× nella latenza di inferenza pura.

Modello	Tempo di caricamento	Memoria	Dimensione download
Parakeet V3	0,77s	~800 MB	465 MB
SenseVoice Small	0,81s	~700 MB	827 MB
Whisper Small	1,03s	~487 MB	600 MB
Whisper Large V3 Turbo	3,18s	~1,6 GB	3 GB

* Tempo di caricamento e memoria misurati su Apple M4 Pro, 32 GB.

SenseVoice si carica in meno di un secondo e utilizza meno memoria di Parakeet. Su un Mac da 8 GB, funziona comodamente insieme alle altre applicazioni.

Perché SenseVoice è più veloce: architettura + runtime

Il divario di velocità tra Qwen3-ASR e SenseVoice deriva da due fattori indipendenti.

Fattore 1: Architettura del modello. Qwen3-ASR è autoregressivo — genera testo token per token, ciascuno dipendente dal precedente. SenseVoice utilizza un encoder non autoregressivo (NAR) che elabora l'intero audio in parallelo. Questa differenza architetturale da sola rende SenseVoice fondamentalmente più veloce, indipendentemente dall'hardware utilizzato.

Fattore 2: Runtime. La nostra integrazione Qwen3-ASR utilizzava sherpa-onnx, che funzionava su CPU. SenseVoice funziona tramite Apple MLX, indirizzando i calcoli alla GPU. Qwen3 potrebbe funzionare anche su MLX? Sì — ma sarebbe comunque più lento di SenseVoice perché il collo di bottiglia autoregressivo è nell'architettura, non nel runtime.

	Qwen3-ASR (vecchio)	SenseVoice (nuovo)
Architettura	Autoregressiva (token per token)	Non autoregressiva (parallela)
Runtime	sherpa-onnx (CPU)	Apple MLX (GPU)
27 min cinese	224 secondi	13,83 secondi
Accelerazione combinata	riferimento	16,2× più veloce
Codice sorgente	Framework C da 168 MB + 2.249 righe Swift	288 righe Swift Actor

* Stesso podcast cinese di 27 minuti, Apple M4 Pro. L'accelerazione di 16,2× combina miglioramenti sia architetturali (NAR vs AR) che di runtime (GPU vs CPU).

Anche il codice è diventato più semplice. La nuova implementazione SenseVoice è un singolo Swift Actor di 288 righe che comunica direttamente con MLX, sostituendo un framework C da 168 MB. Meno codice, meno bug, app più leggera.

Cinque lingue, fatte bene

SenseVoice non cerca di fare tutto. Gestisce cinque lingue:

Lingua	SenseVoice-Small	Whisper-Large-V3	Vincitore
Cinese (zh-CN)	10,78% CER	12,55% CER	SenseVoice (-14%)
Cantonese (yue)	7,09% CER	10,41% CER	SenseVoice (-32%)
Giapponese (ja)	11,96% CER	10,34% CER	Whisper (leggero)
Coreano (ko)	8,28% CER	5,59% CER	Whisper
Inglese (en)	14,71% WER	9,39% WER	Whisper (usa Parakeet)

* Benchmark CommonVoice, CER = tasso di errore per carattere, WER = tasso di errore per parola. Più basso è meglio. Fonte: paper FunAudioLLM (2024). Latenza di inferenza SenseVoice-Small: 70ms per 10s di audio (GPU A800), più di 15× più veloce di Whisper-Large-V3.

Confronto di accuratezza SenseVoice vs Whisper sul benchmark CommonVoice per cinese, cantonese, inglese, giapponese, coreano e 25 altre lingue - grafico a barre WER/CER

Benchmark CommonVoice: SenseVoice-Small (giallo) vs Whisper-Small (blu) vs Whisper-Large-V3 (arancione). Più basso è meglio. Fonte: paper FunAudioLLM

I numeri raccontano una storia onesta. SenseVoice batte Whisper nell'accuratezza per cinese e cantonese con un margine significativo, mentre Whisper è più preciso per giapponese, coreano e inglese. Ma SenseVoice è più di 15× più veloce di Whisper-Large-V3. Per la maggior parte degli usi reali, la differenza di velocità conta più di qualche punto percentuale di accuratezza.

Il risultato per il cantonese merita di essere evidenziato separatamente. Whisper-Small ottiene il 38,97% di CER sul cantonese — quasi inutilizzabile. Anche Whisper-Large-V3 raggiunge solo il 10,41%. SenseVoice arriva al 7,09%. Prima di SenseVoice, non esisteva un buon modo per trascrivere il cantonese localmente su un Mac. Se parli cantonese, questo modello è stato creato per te.

Risultato della trascrizione coreana con SenseVoice in Whisper Notes per Mac che mostra testo coreano accurato da un video

Trascrizione coreana con SenseVoice: importazione video con sottotitoli temporizzati

Test nel mondo reale: podcast cinese di 27 minuti

Abbiamo trascritto un episodio di 27 minuti di Thirteen Invitations (十三邀), un podcast cinese di interviste, con SenseVoice e Whisper Large V3 Turbo sullo stesso M4 Pro. ElevenLabs Scribe (cloud) è servito come riferimento. Entrambi i modelli on-device commettono circa lo stesso numero di errori, ma di tipi diversi:

	SenseVoice	Whisper Large V3
Tempo	13,83s	2 min 4s
Errori (campione di 5 min)	~15–20	~12–15
Errore peggiore	时差→食堂 (fuso orario→mensa)	西昌→西藏 (città di Xichang→Tibet, 4.000 km di errore)
Schema degli errori	Scambio di omofoni	Errori geografici/fattuali

* Confronto manuale con ElevenLabs Scribe (riferimento cloud, anch'esso imperfetto). Entrambi i modelli on-device hanno scritto correttamente «根深蒂固» dove Scribe ha sbagliato.

Accuratezza comparabile. 9× più veloce. Per la trascrizione cinese nel mondo reale, SenseVoice ti fornisce un trascritto utilizzabile prima che Whisper abbia finito di caricarsi.

Quando usare quale modello

Whisper Notes per Mac ora include quattro modelli vocali. Ognuno è ottimizzato per scenari diversi:

Hai bisogno di...	Usa questo modello	Perché
Inglese o lingue europee, massima velocità	Parakeet V3	103× tempo reale, tasso di errore più basso. Il predefinito.
Cinese, giapponese, coreano o cantonese	SenseVoice Small	52–118× tempo reale. Unico modello con supporto cantonese.
Qualsiasi delle 99+ lingue (arabo, thai, russo, ecc.)	Whisper Large V3 Turbo	Supporto linguistico più ampio. Più lento ma universale.
Minor consumo di memoria (Mac meno recenti)	Whisper Small	487 MB di memoria. Ideale per Mac da 8 GB con altre app aperte.

Selettore modelli di Whisper Notes Mac che mostra Parakeet V3, SenseVoice Small, Whisper Small e Whisper Large V3 Turbo con dimensioni di download e supporto linguistico

Impostazioni → Modello di trascrizione: scegli il motore giusto per la tua lingua

Il selettore modelli nelle Impostazioni mostra tutte e quattro le opzioni con dimensioni di download, numero di lingue e requisiti di memoria. SenseVoice viene scaricato al primo utilizzo (~827 MB) e resta sul tuo dispositivo.

I compromessi

SenseVoice non è un modello universale. Ecco cosa non può fare:

• Solo 5 lingue. Se hai bisogno di thai, russo, arabo, hindi o qualsiasi delle oltre 90 lingue supportate da Whisper, resta con Whisper.

• Solo Mac. SenseVoice funziona tramite Apple MLX, che richiede macOS. Non è disponibile su iPhone. Gli utenti iOS hanno Parakeet (per le lingue europee) e Whisper.

• Particolarità con audio silenzioso. Durante segmenti molto brevi o molto silenziosi, SenseVoice può talvolta produrre testo in cinese indipendentemente dalla lingua selezionata. Impostare la lingua manualmente (invece di «Auto») riduce questo comportamento.

• Nessuno streaming. A differenza della modalità streaming di Whisper, SenseVoice elabora l'audio completo dopo la registrazione. Per file lunghi, segmenta automaticamente nei punti di silenzio e mostra i risultati progressivamente.

Questi sono vincoli architetturali, non bug. Un modello addestrato su 5 lingue padroneggia quelle 5 lingue in modo eccellente. Il supporto di 99+ lingue di Whisper comporta velocità inferiore e tassi di errore più elevati su ogni singola lingua.

Provalo

SenseVoice è disponibile in Whisper Notes per Mac v1.4.8 e successive. Scaricalo da Impostazioni → Modello di trascrizione → SenseVoice Small (~827 MB). Richiede un Mac con Apple Silicon (M1 o successivo).

Se usi Parakeet V3 e detti principalmente in inglese, non c'è bisogno di cambiare. SenseVoice è per quando hai bisogno di cinese, giapponese, coreano o cantonese — e lo vuoi veloce.

Scarica per Mac

Registro completo delle modifiche: whispernotes.app/changelog

Domande o feedback: mac@whispernotes.app