IN BREVE — Tre modelli Mac a confronto
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 min inglese | 2,91s (103×) | 5,8s (52×) | 20,92s (14,3×) |
| 27 min cinese | 10,10s (161×) | 13,83s (118×) | 2 min 4s (13,1×) |
| Lingue | 25 (europee) | 5 (zh, en, ja, ko, yue) | 99+ |
| Download | 465 MB | 827 MB | 1,5 GB |
| Memoria | ~800 MB | ~700 MB | ~1,6 GB |
| Ideale per | Inglese & europeo | Cinese, giapponese, coreano, cantonese | Tutto il resto (99+ lingue) |
* Benchmark di velocità su Apple M4 Pro, 32 GB. Podcast inglese di 5 minuti e podcast cinese di 27 minuti. Fattore tempo reale = durata audio ÷ tempo di elaborazione (maggiore = più veloce). SenseVoice è solo per macOS. iOS utilizza Parakeet (via ANE) e Whisper.
A partire dalla versione 1.4.8, Whisper Notes per Mac include SenseVoice Small come motore dedicato per la trascrizione di cinese, giapponese, coreano e cantonese. Sostituisce Qwen3-ASR e funziona sulla GPU di Apple tramite MLX invece che sulla CPU — elaborando un podcast cinese di 27 minuti in 13,83 secondi anziché 3 minuti e 44 secondi.
Perché abbiamo sostituito Qwen3-ASR
Qwen3-ASR era un modello solido. Supportava 30 lingue più 22 dialetti cinesi, e la sua accuratezza per il cinese era vicina allo stato dell'arte. Ma aveva un problema che peggiorava con la durata dell'audio: la velocità.
Qwen3 utilizzava un'architettura autoregressiva — lo stesso approccio di Whisper, che elabora l'audio fotogramma per fotogramma, senza mai saltare avanti. Su un podcast cinese di 27 minuti, impiegava 73 secondi. Utilizzabile, ma non l'esperienza di risultato istantaneo che Parakeet V3 offre per l'inglese.
Il problema più profondo era la nostra infrastruttura. La nostra integrazione Qwen3 utilizzava sherpa-onnx, una libreria C con un wrapper Swift di 2.249 righe che instradava tutto attraverso i core della CPU. La GPU restava inattiva mentre la CPU del tuo Mac faceva tutto il lavoro.
SenseVoice ha risolto entrambi i problemi. Architettura non autoregressiva per la velocità. Apple MLX per l'accelerazione GPU. Il risultato: un miglioramento di velocità di 16,2× sullo stesso hardware, con un codice ridotto da 2.249 a 288 righe.
Il benchmark
Tutti e tre i modelli eseguiti sullo stesso Apple M4 Pro, stessi file audio, stesse condizioni. Nessun cloud. Nessun internet. Solo silicio.
| Modello | 5 min inglese | 27 min cinese | Velocità (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2,91s | 10,10s | 103–161× |
| SenseVoice Small | 5,8s | 13,83s | 52–118× |
| Whisper Large V3 Turbo | 20,92s | 2 min 4s | 13–14× |
| Qwen3-ASR (rimosso) | — | 73s | 4,7× |
SenseVoice è circa la metà della velocità di Parakeet V3 — ma resta straordinariamente veloce. Un podcast di 27 minuti viene completato in meno di 14 secondi. Premi trascrivi, aspetti un respiro, e il testo è lì.
Confrontalo con Whisper a 2 minuti e 4 secondi, o il vecchio Qwen3 a 73 secondi. L'architettura conta più del numero di parametri.
Benchmark ufficiale di inferenza dal paper FunAudioLLM: SenseVoice-Small elabora 10s di audio in 70ms (GPU A800). Whisper-Large-V3 impiega 1.281ms. È una differenza di 18× nella latenza di inferenza pura.
| Modello | Tempo di caricamento | Memoria | Dimensione download |
|---|---|---|---|
| Parakeet V3 | 0,77s | ~800 MB | 465 MB |
| SenseVoice Small | 0,81s | ~700 MB | 827 MB |
| Whisper Small | 1,03s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3,18s | ~1,6 GB | 3 GB |
* Tempo di caricamento e memoria misurati su Apple M4 Pro, 32 GB.
SenseVoice si carica in meno di un secondo e utilizza meno memoria di Parakeet. Su un Mac da 8 GB, funziona comodamente insieme alle altre applicazioni.
Perché SenseVoice è più veloce: architettura + runtime
Il divario di velocità tra Qwen3-ASR e SenseVoice deriva da due fattori indipendenti.
Fattore 1: Architettura del modello. Qwen3-ASR è autoregressivo — genera testo token per token, ciascuno dipendente dal precedente. SenseVoice utilizza un encoder non autoregressivo (NAR) che elabora l'intero audio in parallelo. Questa differenza architetturale da sola rende SenseVoice fondamentalmente più veloce, indipendentemente dall'hardware utilizzato.
Fattore 2: Runtime. La nostra integrazione Qwen3-ASR utilizzava sherpa-onnx, che funzionava su CPU. SenseVoice funziona tramite Apple MLX, indirizzando i calcoli alla GPU. Qwen3 potrebbe funzionare anche su MLX? Sì — ma sarebbe comunque più lento di SenseVoice perché il collo di bottiglia autoregressivo è nell'architettura, non nel runtime.
| Qwen3-ASR (vecchio) | SenseVoice (nuovo) | |
|---|---|---|
| Architettura | Autoregressiva (token per token) | Non autoregressiva (parallela) |
| Runtime | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 min cinese | 224 secondi | 13,83 secondi |
| Accelerazione combinata | riferimento | 16,2× più veloce |
| Codice sorgente | Framework C da 168 MB + 2.249 righe Swift | 288 righe Swift Actor |
* Stesso podcast cinese di 27 minuti, Apple M4 Pro. L'accelerazione di 16,2× combina miglioramenti sia architetturali (NAR vs AR) che di runtime (GPU vs CPU).
Anche il codice è diventato più semplice. La nuova implementazione SenseVoice è un singolo Swift Actor di 288 righe che comunica direttamente con MLX, sostituendo un framework C da 168 MB. Meno codice, meno bug, app più leggera.
Cinque lingue, fatte bene
SenseVoice non cerca di fare tutto. Gestisce cinque lingue:
| Lingua | SenseVoice-Small | Whisper-Large-V3 | Vincitore |
|---|---|---|---|
| Cinese (zh-CN) | 10,78% CER | 12,55% CER | SenseVoice (-14%) |
| Cantonese (yue) | 7,09% CER | 10,41% CER | SenseVoice (-32%) |
| Giapponese (ja) | 11,96% CER | 10,34% CER | Whisper (leggero) |
| Coreano (ko) | 8,28% CER | 5,59% CER | Whisper |
| Inglese (en) | 14,71% WER | 9,39% WER | Whisper (usa Parakeet) |
* Benchmark CommonVoice, CER = tasso di errore per carattere, WER = tasso di errore per parola. Più basso è meglio. Fonte: paper FunAudioLLM (2024). Latenza di inferenza SenseVoice-Small: 70ms per 10s di audio (GPU A800), più di 15× più veloce di Whisper-Large-V3.
Benchmark CommonVoice: SenseVoice-Small (giallo) vs Whisper-Small (blu) vs Whisper-Large-V3 (arancione). Più basso è meglio. Fonte: paper FunAudioLLM
I numeri raccontano una storia onesta. SenseVoice batte Whisper nell'accuratezza per cinese e cantonese con un margine significativo, mentre Whisper è più preciso per giapponese, coreano e inglese. Ma SenseVoice è più di 15× più veloce di Whisper-Large-V3. Per la maggior parte degli usi reali, la differenza di velocità conta più di qualche punto percentuale di accuratezza.
Il risultato per il cantonese merita di essere evidenziato separatamente. Whisper-Small ottiene il 38,97% di CER sul cantonese — quasi inutilizzabile. Anche Whisper-Large-V3 raggiunge solo il 10,41%. SenseVoice arriva al 7,09%. Prima di SenseVoice, non esisteva un buon modo per trascrivere il cantonese localmente su un Mac. Se parli cantonese, questo modello è stato creato per te.
Trascrizione coreana con SenseVoice: importazione video con sottotitoli temporizzati
Test nel mondo reale: podcast cinese di 27 minuti
Abbiamo trascritto un episodio di 27 minuti di Thirteen Invitations (十三邀), un podcast cinese di interviste, con SenseVoice e Whisper Large V3 Turbo sullo stesso M4 Pro. ElevenLabs Scribe (cloud) è servito come riferimento. Entrambi i modelli on-device commettono circa lo stesso numero di errori, ma di tipi diversi:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| Tempo | 13,83s | 2 min 4s |
| Errori (campione di 5 min) | ~15–20 | ~12–15 |
| Errore peggiore | 时差→食堂 (fuso orario→mensa) | 西昌→西藏 (città di Xichang→Tibet, 4.000 km di errore) |
| Schema degli errori | Scambio di omofoni | Errori geografici/fattuali |
* Confronto manuale con ElevenLabs Scribe (riferimento cloud, anch'esso imperfetto). Entrambi i modelli on-device hanno scritto correttamente «根深蒂固» dove Scribe ha sbagliato.
Accuratezza comparabile. 9× più veloce. Per la trascrizione cinese nel mondo reale, SenseVoice ti fornisce un trascritto utilizzabile prima che Whisper abbia finito di caricarsi.
Quando usare quale modello
Whisper Notes per Mac ora include quattro modelli vocali. Ognuno è ottimizzato per scenari diversi:
| Hai bisogno di... | Usa questo modello | Perché |
|---|---|---|
| Inglese o lingue europee, massima velocità | Parakeet V3 | 103× tempo reale, tasso di errore più basso. Il predefinito. |
| Cinese, giapponese, coreano o cantonese | SenseVoice Small | 52–118× tempo reale. Unico modello con supporto cantonese. |
| Qualsiasi delle 99+ lingue (arabo, thai, russo, ecc.) | Whisper Large V3 Turbo | Supporto linguistico più ampio. Più lento ma universale. |
| Minor consumo di memoria (Mac meno recenti) | Whisper Small | 487 MB di memoria. Ideale per Mac da 8 GB con altre app aperte. |
Impostazioni → Modello di trascrizione: scegli il motore giusto per la tua lingua
Il selettore modelli nelle Impostazioni mostra tutte e quattro le opzioni con dimensioni di download, numero di lingue e requisiti di memoria. SenseVoice viene scaricato al primo utilizzo (~827 MB) e resta sul tuo dispositivo.
I compromessi
SenseVoice non è un modello universale. Ecco cosa non può fare:
• Solo 5 lingue. Se hai bisogno di thai, russo, arabo, hindi o qualsiasi delle oltre 90 lingue supportate da Whisper, resta con Whisper.
• Solo Mac. SenseVoice funziona tramite Apple MLX, che richiede macOS. Non è disponibile su iPhone. Gli utenti iOS hanno Parakeet (per le lingue europee) e Whisper.
• Particolarità con audio silenzioso. Durante segmenti molto brevi o molto silenziosi, SenseVoice può talvolta produrre testo in cinese indipendentemente dalla lingua selezionata. Impostare la lingua manualmente (invece di «Auto») riduce questo comportamento.
• Nessuno streaming. A differenza della modalità streaming di Whisper, SenseVoice elabora l'audio completo dopo la registrazione. Per file lunghi, segmenta automaticamente nei punti di silenzio e mostra i risultati progressivamente.
Questi sono vincoli architetturali, non bug. Un modello addestrato su 5 lingue padroneggia quelle 5 lingue in modo eccellente. Il supporto di 99+ lingue di Whisper comporta velocità inferiore e tassi di errore più elevati su ogni singola lingua.
Provalo
SenseVoice è disponibile in Whisper Notes per Mac v1.4.8 e successive. Scaricalo da Impostazioni → Modello di trascrizione → SenseVoice Small (~827 MB). Richiede un Mac con Apple Silicon (M1 o successivo).
Se usi Parakeet V3 e detti principalmente in inglese, non c'è bisogno di cambiare. SenseVoice è per quando hai bisogno di cinese, giapponese, coreano o cantonese — e lo vuoi veloce.
Registro completo delle modifiche: whispernotes.app/changelog
Domande o feedback: mac@whispernotes.app