SenseVoice: Transcrição 52× mais rápida para chinês, japonês e coreano no Mac

12 de maio de 2026
·
7 min read
·Whisper Notes Team

TL;DR -- Tres modelos Mac comparados

Parakeet V3 SenseVoice Small Whisper Large V3 Turbo
5 min ingles 2.91s (103×) 5.8s (52×) 20.92s (14.3×)
27 min chines 10.10s (161×) 13.83s (118×) 2 min 4s (13.1×)
Idiomas 25 (europeus) 5 (zh, en, ja, ko, yue) 99+
Download 465 MB 827 MB 1.5 GB
Memoria ~800 MB ~700 MB ~1.6 GB
Melhor para Ingles & europeus Chines, japones, coreano, cantones Todo o resto (99+ idiomas)

* Benchmarks de velocidade no Apple M4 Pro, 32 GB. Podcast de 5 minutos em ingles e podcast de 27 minutos em chines. Fator de tempo real = duracao do audio / tempo de processamento (maior = mais rapido). SenseVoice e apenas para macOS. iOS usa Parakeet (via ANE) e Whisper.

A partir da versao 1.4.8, o Whisper Notes para Mac inclui o SenseVoice Small como motor dedicado para transcricao em chines, japones, coreano e cantones. Ele substitui o Qwen3-ASR e roda na GPU da Apple via MLX em vez da CPU -- processando um podcast chines de 27 minutos em 13,83 segundos em vez de 3 minutos e 44 segundos.

Por que substituimos o Qwen3-ASR

O Qwen3-ASR era um modelo solido. Suportava 30 idiomas mais 22 dialetos chineses, e sua precisao para chines estava proxima do estado da arte. Mas tinha um problema que piorava quanto mais longo o audio: velocidade.

O Qwen3 usava uma arquitetura autorregressiva -- a mesma abordagem do Whisper, processando audio quadro a quadro, sem nunca pular para frente. Em um podcast chines de 27 minutos, levava 73 segundos. Utilizavel, mas nao a experiencia de resultado instantaneo que o Parakeet V3 oferece para ingles.

O problema mais profundo era nossa infraestrutura. Nossa integracao do Qwen3 usava sherpa-onnx, uma biblioteca C com um wrapper Swift de 2.249 linhas que direcionava tudo atraves dos nucleos da CPU. A GPU ficava ociosa enquanto a CPU do seu Mac fazia todo o trabalho.

O SenseVoice resolveu ambos os problemas. Arquitetura nao autorregressiva para velocidade. Apple MLX para aceleracao de GPU. O resultado: uma melhoria de velocidade de 16,2× no mesmo hardware, com uma base de codigo reduzida de 2.249 linhas para 288.

O benchmark

Os tres modelos rodando no mesmo Apple M4 Pro, mesmos arquivos de audio, mesmas condicoes. Sem nuvem. Sem internet. Apenas silicio.

Modelo 5 min ingles 27 min chines Velocidade (RTFx)
Parakeet V3 2.91s 10.10s 103--161×
SenseVoice Small 5.8s 13.83s 52--118×
Whisper Large V3 Turbo 20.92s 2 min 4s 13--14×
Qwen3-ASR (removido) -- 73s 4.7×

O SenseVoice e aproximadamente metade da velocidade do Parakeet V3 -- ainda assim extraordinariamente rapido. Um podcast de 27 minutos e concluido em menos de 14 segundos. Voce pressiona transcrever, espera uma respiracao, e o texto ja esta la.

Compare isso com o Whisper em 2 minutos e 4 segundos, ou o antigo Qwen3 em 73 segundos. A arquitetura importa mais do que a quantidade de parametros.

Tabela oficial de comparacao de velocidade de inferencia do artigo FunAudioLLM: SenseVoice-Small (70ms por 10s de audio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - arquitetura do modelo, parametros, idiomas suportados, RTF e latencia

Benchmark oficial de inferencia do artigo FunAudioLLM: SenseVoice-Small processa 10s de audio em 70ms (A800 GPU). Whisper-Large-V3 leva 1.281ms. Isso e uma diferenca de 18× em latencia bruta de inferencia.

Modelo Tempo de carregamento Memoria Tamanho do download
Parakeet V3 0.77s ~800 MB 465 MB
SenseVoice Small 0.81s ~700 MB 827 MB
Whisper Small 1.03s ~487 MB 600 MB
Whisper Large V3 Turbo 3.18s ~1.6 GB 3 GB

* Tempo de carregamento e memoria medidos no Apple M4 Pro, 32 GB.

O SenseVoice carrega em menos de um segundo e usa menos memoria do que o Parakeet. Em um Mac de 8 GB, ele roda confortavelmente junto com seus outros aplicativos.

Por que o SenseVoice e mais rapido: Arquitetura + Runtime

A diferenca de velocidade entre o Qwen3-ASR e o SenseVoice vem de dois fatores independentes.

Fator 1: Arquitetura do modelo. O Qwen3-ASR e autorregressivo -- ele gera texto token por token, cada um dependendo do anterior. O SenseVoice usa um codificador nao autorregressivo (NAR) que processa todo o audio em paralelo. Essa diferenca arquitetural sozinha torna o SenseVoice fundamentalmente mais rapido, independentemente do hardware utilizado.

Fator 2: Runtime. Nossa integracao do Qwen3-ASR usava sherpa-onnx, que rodava na CPU. O SenseVoice roda atraves do Apple MLX, direcionando a computacao para a GPU. O Qwen3 poderia tambem rodar no MLX? Sim -- mas ainda seria mais lento que o SenseVoice porque o gargalo autorregressivo esta na arquitetura, nao no runtime.

Qwen3-ASR (antigo) SenseVoice (novo)
Arquitetura Autorregressiva (token por token) Nao autorregressiva (paralela)
Runtime sherpa-onnx (CPU) Apple MLX (GPU)
27 min chines 224 segundos 13,83 segundos
Aceleracao combinada linha de base 16,2× mais rapido
Base de codigo Framework C de 168 MB + 2.249 linhas Swift 288 linhas Swift Actor

* Mesmo podcast chines de 27 minutos, Apple M4 Pro. A aceleracao de 16,2× combina melhorias tanto arquiteturais (NAR vs AR) quanto de runtime (GPU vs CPU).

O codigo tambem ficou mais simples. A nova implementacao do SenseVoice e um unico Swift Actor de 288 linhas que se comunica diretamente com o MLX, substituindo um framework C de 168 MB. Menos codigo, menos bugs, app menor.

Cinco idiomas, bem feitos

O SenseVoice nao tenta fazer tudo. Ele lida com cinco idiomas:

Idioma SenseVoice-Small Whisper-Large-V3 Vencedor
Chines (zh-CN) 10.78% CER 12.55% CER SenseVoice (-14%)
Cantones (yue) 7.09% CER 10.41% CER SenseVoice (-32%)
Japones (ja) 11.96% CER 10.34% CER Whisper (leve)
Coreano (ko) 8.28% CER 5.59% CER Whisper
Ingles (en) 14.71% WER 9.39% WER Whisper (use Parakeet)

* Benchmark CommonVoice, CER = Character Error Rate, WER = Word Error Rate. Menor e melhor. Fonte: artigo FunAudioLLM (2024). Latencia de inferencia do SenseVoice-Small: 70ms por 10s de audio (A800 GPU), mais de 15× mais rapido que Whisper-Large-V3.

Comparacao de precisao SenseVoice vs Whisper no benchmark CommonVoice para chines, cantones, ingles, japones, coreano e 25 outros idiomas - grafico de barras WER/CER

Benchmark CommonVoice: SenseVoice-Small (amarelo) vs Whisper-Small (azul) vs Whisper-Large-V3 (laranja). Menor e melhor. Fonte: artigo FunAudioLLM

Os numeros contam uma historia honesta. O SenseVoice supera o Whisper em precisao para chines e cantones por uma margem significativa, enquanto o Whisper e mais preciso para japones, coreano e ingles. Mas o SenseVoice e mais de 15× mais rapido que o Whisper-Large-V3. Para a maioria dos usos reais, a diferenca de velocidade importa mais do que alguns pontos percentuais de precisao.

O resultado do cantones merece destaque separado. O Whisper-Small obtem 38,97% de CER em cantones -- quase inutilizavel. Mesmo o Whisper-Large-V3 alcanca apenas 10,41%. O SenseVoice atinge 7,09%. Antes do SenseVoice, nao havia uma boa forma de transcrever cantones localmente em um Mac. Se voce fala cantones, este modelo existe para voce.

Resultado de transcricao coreana do SenseVoice no Whisper Notes para Mac mostrando texto coreano preciso de um video

Transcricao coreana com SenseVoice: importacao de video com legendas com marcacao de tempo

Teste real: podcast chines de 27 minutos

Transcrevemos um episodio de 27 minutos do Thirteen Invitations (十三邀), um podcast de entrevistas chines, com SenseVoice e Whisper Large V3 Turbo no mesmo M4 Pro. O ElevenLabs Scribe (nuvem) serviu como referencia. Ambos os modelos locais cometem aproximadamente o mesmo numero de erros, mas de tipos diferentes:

SenseVoice Whisper Large V3
Tempo 13.83s 2 min 4s
Erros (amostra de 5 min) ~15--20 ~12--15
Pior erro 时差→食堂 (fuso horario→refeitorio) 西昌→西藏 (cidade Xichang→Tibete, 4.000 km de erro)
Padrao de erros Trocas de homofonos Erros geograficos/factuais

* Comparacao manual contra ElevenLabs Scribe (referencia na nuvem, tambem imperfeita). Ambos os modelos locais escreveram corretamente "根深蒂固" onde o Scribe errou.

Precisao comparavel. 9× mais rapido. Para transcricao de chines no mundo real, o SenseVoice te entrega um transcrito utilizavel antes do Whisper terminar de carregar.

Quando usar qual modelo

O Whisper Notes para Mac agora inclui quatro modelos de fala. Cada um e otimizado para cenarios diferentes:

Voce precisa de... Use este modelo Por que
Ingles ou idiomas europeus, velocidade maxima Parakeet V3 103× tempo real, menor taxa de erro. O padrao.
Chines, japones, coreano ou cantones SenseVoice Small 52--118× tempo real. Unico modelo com suporte a cantones.
Qualquer um dos 99+ idiomas (arabe, tailandes, russo, etc.) Whisper Large V3 Turbo Maior suporte a idiomas. Mais lento, mas universal.
Menor uso de memoria (Macs mais antigos) Whisper Small 487 MB de memoria. Bom para Macs de 8 GB rodando outros apps.
Seletor de modelo do Whisper Notes Mac mostrando Parakeet V3, SenseVoice Small, Whisper Small e Whisper Large V3 Turbo com tamanhos de download e suporte a idiomas

Configuracoes → Modelo de transcricao: escolha o motor certo para seu idioma

O seletor de modelos nas Configuracoes mostra todas as quatro opcoes com tamanhos de download, numero de idiomas e requisitos de memoria. O SenseVoice e baixado no primeiro uso (~827 MB) e permanece no seu dispositivo.

Os compromissos

O SenseVoice nao e um modelo universal. Eis o que ele nao pode fazer:

* Apenas 5 idiomas. Se voce precisa de tailandes, russo, arabe, hindi ou qualquer um dos outros 90+ idiomas que o Whisper suporta, fique com o Whisper.

* Apenas Mac. O SenseVoice roda via Apple MLX, que requer macOS. Nao esta disponivel no iPhone. Usuarios de iOS tem Parakeet (para idiomas europeus) e Whisper.

* Peculiaridade com audio silencioso. Durante segmentos muito curtos ou muito silenciosos, o SenseVoice pode as vezes voltar para saida em chines independentemente do idioma selecionado. Definir o idioma manualmente (em vez de "Auto") reduz isso.

* Sem streaming. Diferentemente do modo de streaming do Whisper, o SenseVoice processa o audio completo apos a gravacao. Para arquivos longos, ele segmenta automaticamente nos pontos de silencio e mostra resultados progressivamente.

Essas sao restricoes arquiteturais, nao bugs. Um modelo treinado em 5 idiomas faz esses 5 idiomas extremamente bem. O suporte a 99+ idiomas do Whisper vem com velocidade mais lenta e taxas de erro mais altas em cada idioma individual.

Experimente

O SenseVoice esta disponivel no Whisper Notes para Mac v1.4.8 e posteriores. Baixe-o em Configuracoes → Modelo de transcricao → SenseVoice Small (~827 MB). Requer um Mac com Apple Silicon (M1 ou posterior).

Se voce esta no Parakeet V3 e dita principalmente em ingles, nao ha necessidade de trocar. O SenseVoice e para quando voce precisa de chines, japones, coreano ou cantones -- e quer rapido.

Baixar para Mac

Changelog completo: whispernotes.app/changelog

Duvidas ou feedback: mac@whispernotes.app