TL;DR -- Tres modelos Mac comparados
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 min ingles | 2.91s (103×) | 5.8s (52×) | 20.92s (14.3×) |
| 27 min chines | 10.10s (161×) | 13.83s (118×) | 2 min 4s (13.1×) |
| Idiomas | 25 (europeus) | 5 (zh, en, ja, ko, yue) | 99+ |
| Download | 465 MB | 827 MB | 1.5 GB |
| Memoria | ~800 MB | ~700 MB | ~1.6 GB |
| Melhor para | Ingles & europeus | Chines, japones, coreano, cantones | Todo o resto (99+ idiomas) |
* Benchmarks de velocidade no Apple M4 Pro, 32 GB. Podcast de 5 minutos em ingles e podcast de 27 minutos em chines. Fator de tempo real = duracao do audio / tempo de processamento (maior = mais rapido). SenseVoice e apenas para macOS. iOS usa Parakeet (via ANE) e Whisper.
A partir da versao 1.4.8, o Whisper Notes para Mac inclui o SenseVoice Small como motor dedicado para transcricao em chines, japones, coreano e cantones. Ele substitui o Qwen3-ASR e roda na GPU da Apple via MLX em vez da CPU -- processando um podcast chines de 27 minutos em 13,83 segundos em vez de 3 minutos e 44 segundos.
Por que substituimos o Qwen3-ASR
O Qwen3-ASR era um modelo solido. Suportava 30 idiomas mais 22 dialetos chineses, e sua precisao para chines estava proxima do estado da arte. Mas tinha um problema que piorava quanto mais longo o audio: velocidade.
O Qwen3 usava uma arquitetura autorregressiva -- a mesma abordagem do Whisper, processando audio quadro a quadro, sem nunca pular para frente. Em um podcast chines de 27 minutos, levava 73 segundos. Utilizavel, mas nao a experiencia de resultado instantaneo que o Parakeet V3 oferece para ingles.
O problema mais profundo era nossa infraestrutura. Nossa integracao do Qwen3 usava sherpa-onnx, uma biblioteca C com um wrapper Swift de 2.249 linhas que direcionava tudo atraves dos nucleos da CPU. A GPU ficava ociosa enquanto a CPU do seu Mac fazia todo o trabalho.
O SenseVoice resolveu ambos os problemas. Arquitetura nao autorregressiva para velocidade. Apple MLX para aceleracao de GPU. O resultado: uma melhoria de velocidade de 16,2× no mesmo hardware, com uma base de codigo reduzida de 2.249 linhas para 288.
O benchmark
Os tres modelos rodando no mesmo Apple M4 Pro, mesmos arquivos de audio, mesmas condicoes. Sem nuvem. Sem internet. Apenas silicio.
| Modelo | 5 min ingles | 27 min chines | Velocidade (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2.91s | 10.10s | 103--161× |
| SenseVoice Small | 5.8s | 13.83s | 52--118× |
| Whisper Large V3 Turbo | 20.92s | 2 min 4s | 13--14× |
| Qwen3-ASR (removido) | -- | 73s | 4.7× |
O SenseVoice e aproximadamente metade da velocidade do Parakeet V3 -- ainda assim extraordinariamente rapido. Um podcast de 27 minutos e concluido em menos de 14 segundos. Voce pressiona transcrever, espera uma respiracao, e o texto ja esta la.
Compare isso com o Whisper em 2 minutos e 4 segundos, ou o antigo Qwen3 em 73 segundos. A arquitetura importa mais do que a quantidade de parametros.
Benchmark oficial de inferencia do artigo FunAudioLLM: SenseVoice-Small processa 10s de audio em 70ms (A800 GPU). Whisper-Large-V3 leva 1.281ms. Isso e uma diferenca de 18× em latencia bruta de inferencia.
| Modelo | Tempo de carregamento | Memoria | Tamanho do download |
|---|---|---|---|
| Parakeet V3 | 0.77s | ~800 MB | 465 MB |
| SenseVoice Small | 0.81s | ~700 MB | 827 MB |
| Whisper Small | 1.03s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3.18s | ~1.6 GB | 3 GB |
* Tempo de carregamento e memoria medidos no Apple M4 Pro, 32 GB.
O SenseVoice carrega em menos de um segundo e usa menos memoria do que o Parakeet. Em um Mac de 8 GB, ele roda confortavelmente junto com seus outros aplicativos.
Por que o SenseVoice e mais rapido: Arquitetura + Runtime
A diferenca de velocidade entre o Qwen3-ASR e o SenseVoice vem de dois fatores independentes.
Fator 1: Arquitetura do modelo. O Qwen3-ASR e autorregressivo -- ele gera texto token por token, cada um dependendo do anterior. O SenseVoice usa um codificador nao autorregressivo (NAR) que processa todo o audio em paralelo. Essa diferenca arquitetural sozinha torna o SenseVoice fundamentalmente mais rapido, independentemente do hardware utilizado.
Fator 2: Runtime. Nossa integracao do Qwen3-ASR usava sherpa-onnx, que rodava na CPU. O SenseVoice roda atraves do Apple MLX, direcionando a computacao para a GPU. O Qwen3 poderia tambem rodar no MLX? Sim -- mas ainda seria mais lento que o SenseVoice porque o gargalo autorregressivo esta na arquitetura, nao no runtime.
| Qwen3-ASR (antigo) | SenseVoice (novo) | |
|---|---|---|
| Arquitetura | Autorregressiva (token por token) | Nao autorregressiva (paralela) |
| Runtime | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 min chines | 224 segundos | 13,83 segundos |
| Aceleracao combinada | linha de base | 16,2× mais rapido |
| Base de codigo | Framework C de 168 MB + 2.249 linhas Swift | 288 linhas Swift Actor |
* Mesmo podcast chines de 27 minutos, Apple M4 Pro. A aceleracao de 16,2× combina melhorias tanto arquiteturais (NAR vs AR) quanto de runtime (GPU vs CPU).
O codigo tambem ficou mais simples. A nova implementacao do SenseVoice e um unico Swift Actor de 288 linhas que se comunica diretamente com o MLX, substituindo um framework C de 168 MB. Menos codigo, menos bugs, app menor.
Cinco idiomas, bem feitos
O SenseVoice nao tenta fazer tudo. Ele lida com cinco idiomas:
| Idioma | SenseVoice-Small | Whisper-Large-V3 | Vencedor |
|---|---|---|---|
| Chines (zh-CN) | 10.78% CER | 12.55% CER | SenseVoice (-14%) |
| Cantones (yue) | 7.09% CER | 10.41% CER | SenseVoice (-32%) |
| Japones (ja) | 11.96% CER | 10.34% CER | Whisper (leve) |
| Coreano (ko) | 8.28% CER | 5.59% CER | Whisper |
| Ingles (en) | 14.71% WER | 9.39% WER | Whisper (use Parakeet) |
* Benchmark CommonVoice, CER = Character Error Rate, WER = Word Error Rate. Menor e melhor. Fonte: artigo FunAudioLLM (2024). Latencia de inferencia do SenseVoice-Small: 70ms por 10s de audio (A800 GPU), mais de 15× mais rapido que Whisper-Large-V3.
Benchmark CommonVoice: SenseVoice-Small (amarelo) vs Whisper-Small (azul) vs Whisper-Large-V3 (laranja). Menor e melhor. Fonte: artigo FunAudioLLM
Os numeros contam uma historia honesta. O SenseVoice supera o Whisper em precisao para chines e cantones por uma margem significativa, enquanto o Whisper e mais preciso para japones, coreano e ingles. Mas o SenseVoice e mais de 15× mais rapido que o Whisper-Large-V3. Para a maioria dos usos reais, a diferenca de velocidade importa mais do que alguns pontos percentuais de precisao.
O resultado do cantones merece destaque separado. O Whisper-Small obtem 38,97% de CER em cantones -- quase inutilizavel. Mesmo o Whisper-Large-V3 alcanca apenas 10,41%. O SenseVoice atinge 7,09%. Antes do SenseVoice, nao havia uma boa forma de transcrever cantones localmente em um Mac. Se voce fala cantones, este modelo existe para voce.
Transcricao coreana com SenseVoice: importacao de video com legendas com marcacao de tempo
Teste real: podcast chines de 27 minutos
Transcrevemos um episodio de 27 minutos do Thirteen Invitations (十三邀), um podcast de entrevistas chines, com SenseVoice e Whisper Large V3 Turbo no mesmo M4 Pro. O ElevenLabs Scribe (nuvem) serviu como referencia. Ambos os modelos locais cometem aproximadamente o mesmo numero de erros, mas de tipos diferentes:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| Tempo | 13.83s | 2 min 4s |
| Erros (amostra de 5 min) | ~15--20 | ~12--15 |
| Pior erro | 时差→食堂 (fuso horario→refeitorio) | 西昌→西藏 (cidade Xichang→Tibete, 4.000 km de erro) |
| Padrao de erros | Trocas de homofonos | Erros geograficos/factuais |
* Comparacao manual contra ElevenLabs Scribe (referencia na nuvem, tambem imperfeita). Ambos os modelos locais escreveram corretamente "根深蒂固" onde o Scribe errou.
Precisao comparavel. 9× mais rapido. Para transcricao de chines no mundo real, o SenseVoice te entrega um transcrito utilizavel antes do Whisper terminar de carregar.
Quando usar qual modelo
O Whisper Notes para Mac agora inclui quatro modelos de fala. Cada um e otimizado para cenarios diferentes:
| Voce precisa de... | Use este modelo | Por que |
|---|---|---|
| Ingles ou idiomas europeus, velocidade maxima | Parakeet V3 | 103× tempo real, menor taxa de erro. O padrao. |
| Chines, japones, coreano ou cantones | SenseVoice Small | 52--118× tempo real. Unico modelo com suporte a cantones. |
| Qualquer um dos 99+ idiomas (arabe, tailandes, russo, etc.) | Whisper Large V3 Turbo | Maior suporte a idiomas. Mais lento, mas universal. |
| Menor uso de memoria (Macs mais antigos) | Whisper Small | 487 MB de memoria. Bom para Macs de 8 GB rodando outros apps. |
Configuracoes → Modelo de transcricao: escolha o motor certo para seu idioma
O seletor de modelos nas Configuracoes mostra todas as quatro opcoes com tamanhos de download, numero de idiomas e requisitos de memoria. O SenseVoice e baixado no primeiro uso (~827 MB) e permanece no seu dispositivo.
Os compromissos
O SenseVoice nao e um modelo universal. Eis o que ele nao pode fazer:
* Apenas 5 idiomas. Se voce precisa de tailandes, russo, arabe, hindi ou qualquer um dos outros 90+ idiomas que o Whisper suporta, fique com o Whisper.
* Apenas Mac. O SenseVoice roda via Apple MLX, que requer macOS. Nao esta disponivel no iPhone. Usuarios de iOS tem Parakeet (para idiomas europeus) e Whisper.
* Peculiaridade com audio silencioso. Durante segmentos muito curtos ou muito silenciosos, o SenseVoice pode as vezes voltar para saida em chines independentemente do idioma selecionado. Definir o idioma manualmente (em vez de "Auto") reduz isso.
* Sem streaming. Diferentemente do modo de streaming do Whisper, o SenseVoice processa o audio completo apos a gravacao. Para arquivos longos, ele segmenta automaticamente nos pontos de silencio e mostra resultados progressivamente.
Essas sao restricoes arquiteturais, nao bugs. Um modelo treinado em 5 idiomas faz esses 5 idiomas extremamente bem. O suporte a 99+ idiomas do Whisper vem com velocidade mais lenta e taxas de erro mais altas em cada idioma individual.
Experimente
O SenseVoice esta disponivel no Whisper Notes para Mac v1.4.8 e posteriores. Baixe-o em Configuracoes → Modelo de transcricao → SenseVoice Small (~827 MB). Requer um Mac com Apple Silicon (M1 ou posterior).
Se voce esta no Parakeet V3 e dita principalmente em ingles, nao ha necessidade de trocar. O SenseVoice e para quando voce precisa de chines, japones, coreano ou cantones -- e quer rapido.
Changelog completo: whispernotes.app/changelog
Duvidas ou feedback: mac@whispernotes.app