SenseVoice: Transcrição 52× mais rápida para chinês, japonês e coreano no Mac

RESUMO — Três modelos Mac comparados

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 min inglês	2,91s (103×)	5,8s (52×)	20,92s (14,3×)
27 min chinês	10,10s (161×)	13,83s (118×)	2 min 4s (13,1×)
Idiomas	25 (europeus)	5 (zh, en, ja, ko, yue)	99+
Download	465 MB	827 MB	1,5 GB
Memória	~800 MB	~700 MB	~1,6 GB
Ideal para	Inglês & europeu	Chinês, japonês, coreano, cantonês	Tudo o resto (99+ idiomas)

* Benchmarks de velocidade no Apple M4 Pro, 32 GB. Podcast em inglês de 5 minutos e podcast em chinês de 27 minutos. Fator de tempo real = duração do áudio ÷ tempo de processamento (maior = mais rápido). SenseVoice é apenas para macOS. O iOS utiliza Parakeet (via ANE) e Whisper.

A partir da versão 1.4.8, o Whisper Notes para Mac inclui o SenseVoice Small como motor dedicado para transcrição de chinês, japonês, coreano e cantonês. Substitui o Qwen3-ASR e funciona na GPU da Apple via MLX em vez da CPU — processando um podcast em chinês de 27 minutos em 13,83 segundos em vez de 3 minutos e 44 segundos.

Por que substituímos o Qwen3-ASR

O Qwen3-ASR era um modelo sólido. Suportava 30 idiomas mais 22 dialetos chineses, e a sua precisão para chinês estava próxima do estado da arte. Mas tinha um problema que piorava com a duração do áudio: velocidade.

O Qwen3 usava uma arquitetura autorregressiva — a mesma abordagem do Whisper, processando áudio frame a frame, sem nunca avançar. Num podcast em chinês de 27 minutos, demorava 73 segundos. Utilizável, mas não a experiência de resultado instantâneo que o Parakeet V3 oferece para inglês.

O problema mais profundo era a nossa infraestrutura. A nossa integração do Qwen3 usava sherpa-onnx, uma biblioteca C com um wrapper Swift de 2.249 linhas que encaminhava tudo pelos núcleos da CPU. A GPU ficava inativa enquanto a CPU do seu Mac fazia todo o trabalho.

O SenseVoice resolveu ambos os problemas. Arquitetura não autorregressiva para velocidade. Apple MLX para aceleração GPU. O resultado: uma melhoria de velocidade de 16,2× no mesmo hardware, com um código reduzido de 2.249 para 288 linhas.

O benchmark

Os três modelos a funcionar no mesmo Apple M4 Pro, mesmos ficheiros de áudio, mesmas condições. Sem cloud. Sem internet. Apenas silício.

Modelo	5 min inglês	27 min chinês	Velocidade (RTFx)
Parakeet V3	2,91s	10,10s	103–161×
SenseVoice Small	5,8s	13,83s	52–118×
Whisper Large V3 Turbo	20,92s	2 min 4s	13–14×
Qwen3-ASR (removido)	—	73s	4,7×

O SenseVoice é aproximadamente metade da velocidade do Parakeet V3 — mas continua extraordinariamente rápido. Um podcast de 27 minutos fica pronto em menos de 14 segundos. Carrega em transcrever, espera um instante, e o texto está lá.

Compare isso com o Whisper a 2 minutos e 4 segundos, ou o antigo Qwen3 a 73 segundos. A arquitetura importa mais do que a contagem de parâmetros.

Tabela oficial de comparação de velocidade de inferência do paper FunAudioLLM: SenseVoice-Small (70ms por 10s de áudio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - mostrando arquitetura do modelo, parâmetros, idiomas suportados, RTF e latência

Benchmark oficial de inferência do paper FunAudioLLM: SenseVoice-Small processa 10s de áudio em 70ms (GPU A800). Whisper-Large-V3 demora 1.281ms. É uma diferença de 18× na latência de inferência pura.

Modelo	Tempo de carregamento	Memória	Tamanho do download
Parakeet V3	0,77s	~800 MB	465 MB
SenseVoice Small	0,81s	~700 MB	827 MB
Whisper Small	1,03s	~487 MB	600 MB
Whisper Large V3 Turbo	3,18s	~1,6 GB	3 GB

* Tempo de carregamento e memória medidos no Apple M4 Pro, 32 GB.

O SenseVoice carrega em menos de um segundo e usa menos memória do que o Parakeet. Num Mac de 8 GB, funciona confortavelmente ao lado das suas outras aplicações.

Por que o SenseVoice é mais rápido: arquitetura + runtime

A diferença de velocidade entre o Qwen3-ASR e o SenseVoice provém de dois fatores independentes.

Fator 1: Arquitetura do modelo. O Qwen3-ASR é autorregressivo — gera texto token a token, cada um dependendo do anterior. O SenseVoice usa um codificador não autorregressivo (NAR) que processa todo o áudio em paralelo. Esta diferença arquitetural por si só torna o SenseVoice fundamentalmente mais rápido, independentemente do hardware utilizado.

Fator 2: Runtime. A nossa integração do Qwen3-ASR usava sherpa-onnx, que funcionava na CPU. O SenseVoice funciona através do Apple MLX, encaminhando os cálculos para a GPU. O Qwen3 poderia também funcionar no MLX? Sim — mas continuaria a ser mais lento do que o SenseVoice porque o gargalo autorregressivo está na arquitetura, não no runtime.

	Qwen3-ASR (antigo)	SenseVoice (novo)
Arquitetura	Autorregressiva (token a token)	Não autorregressiva (paralela)
Runtime	sherpa-onnx (CPU)	Apple MLX (GPU)
27 min chinês	224 segundos	13,83 segundos
Aceleração combinada	referência	16,2× mais rápido
Código fonte	Framework C de 168 MB + 2.249 linhas Swift	288 linhas Swift Actor

* Mesmo podcast chinês de 27 minutos, Apple M4 Pro. A aceleração de 16,2× combina melhorias tanto arquiteturais (NAR vs AR) quanto de runtime (GPU vs CPU).

O código também ficou mais simples. A nova implementação do SenseVoice é um único Swift Actor de 288 linhas que comunica diretamente com o MLX, substituindo um framework C de 168 MB. Menos código, menos bugs, aplicação mais leve.

Cinco idiomas, bem feitos

O SenseVoice não tenta fazer tudo. Suporta cinco idiomas:

Idioma	SenseVoice-Small	Whisper-Large-V3	Vencedor
Chinês (zh-CN)	10,78% CER	12,55% CER	SenseVoice (-14%)
Cantonês (yue)	7,09% CER	10,41% CER	SenseVoice (-32%)
Japonês (ja)	11,96% CER	10,34% CER	Whisper (ligeiro)
Coreano (ko)	8,28% CER	5,59% CER	Whisper
Inglês (en)	14,71% WER	9,39% WER	Whisper (use Parakeet)

* Benchmark CommonVoice, CER = taxa de erro por caractere, WER = taxa de erro por palavra. Menor é melhor. Fonte: paper FunAudioLLM (2024). Latência de inferência do SenseVoice-Small: 70ms por 10s de áudio (GPU A800), mais de 15× mais rápido que o Whisper-Large-V3.

Comparação de precisão SenseVoice vs Whisper no benchmark CommonVoice para chinês, cantonês, inglês, japonês, coreano e 25 outros idiomas - gráfico de barras WER/CER

Benchmark CommonVoice: SenseVoice-Small (amarelo) vs Whisper-Small (azul) vs Whisper-Large-V3 (laranja). Menor é melhor. Fonte: paper FunAudioLLM

Os números contam uma história honesta. O SenseVoice supera o Whisper em precisão para chinês e cantonês por uma margem significativa, enquanto o Whisper é mais preciso para japonês, coreano e inglês. Mas o SenseVoice é mais de 15× mais rápido que o Whisper-Large-V3. Para a maioria dos usos reais, a diferença de velocidade importa mais do que alguns pontos percentuais de precisão.

O resultado do cantonês merece destaque especial. O Whisper-Small obtém 38,97% de CER em cantonês — praticamente inutilizável. Mesmo o Whisper-Large-V3 consegue apenas 10,41%. O SenseVoice atinge 7,09%. Antes do SenseVoice, não existia uma boa forma de transcrever cantonês localmente num Mac. Se fala cantonês, este modelo foi criado para si.

Resultado de transcrição coreana com SenseVoice no Whisper Notes para Mac mostrando texto coreano preciso de um vídeo

Transcrição coreana com SenseVoice: importação de vídeo com legendas temporizadas

Teste no mundo real: podcast chinês de 27 minutos

Transcrevemos um episódio de 27 minutos de Thirteen Invitations (十三邀), um podcast chinês de entrevistas, com SenseVoice e Whisper Large V3 Turbo no mesmo M4 Pro. O ElevenLabs Scribe (cloud) serviu como referência. Ambos os modelos no dispositivo cometem aproximadamente o mesmo número de erros, mas de tipos diferentes:

	SenseVoice	Whisper Large V3
Tempo	13,83s	2 min 4s
Erros (amostra de 5 min)	~15–20	~12–15
Pior erro	时差→食堂 (fuso horário→cantina)	西昌→西藏 (cidade de Xichang→Tibete, 4.000 km de diferença)
Padrão de erros	Trocas de homófonos	Erros geográficos/factuais

* Comparação manual com ElevenLabs Scribe (referência cloud, também imperfeita). Ambos os modelos no dispositivo escreveram corretamente «根深蒂固» onde o Scribe errou.

Precisão comparável. 9× mais rápido. Para transcrição de chinês no mundo real, o SenseVoice entrega-lhe uma transcrição utilizável antes do Whisper acabar de carregar.

Quando usar qual modelo

O Whisper Notes para Mac agora inclui quatro modelos de voz. Cada um é otimizado para cenários diferentes:

Precisa de...	Use este modelo	Porquê
Inglês ou idiomas europeus, velocidade máxima	Parakeet V3	103× tempo real, menor taxa de erro. O predefinido.
Chinês, japonês, coreano ou cantonês	SenseVoice Small	52–118× tempo real. Único modelo com suporte a cantonês.
Qualquer um dos 99+ idiomas (árabe, tailandês, russo, etc.)	Whisper Large V3 Turbo	Maior suporte de idiomas. Mais lento mas universal.
Menor uso de memória (Macs mais antigos)	Whisper Small	487 MB de memória. Bom para Macs de 8 GB com outras apps abertas.

Seletor de modelos do Whisper Notes Mac mostrando Parakeet V3, SenseVoice Small, Whisper Small e Whisper Large V3 Turbo com tamanhos de download e suporte de idiomas

Definições → Modelo de transcrição: escolha o motor certo para o seu idioma

O seletor de modelos nas Definições mostra as quatro opções com tamanhos de download, número de idiomas e requisitos de memória. O SenseVoice é descarregado na primeira utilização (~827 MB) e permanece no seu dispositivo.

As limitações

O SenseVoice não é um modelo universal. Eis o que não consegue fazer:

• Apenas 5 idiomas. Se precisa de tailandês, russo, árabe, hindi ou qualquer dos outros 90+ idiomas suportados pelo Whisper, fique com o Whisper.

• Apenas Mac. O SenseVoice funciona via Apple MLX, que requer macOS. Não está disponível no iPhone. Os utilizadores de iOS têm o Parakeet (para idiomas europeus) e o Whisper.

• Particularidade com áudio silencioso. Durante segmentos muito curtos ou muito silenciosos, o SenseVoice pode por vezes reverter para saída em chinês independentemente do idioma selecionado. Definir o idioma manualmente (em vez de «Auto») reduz este comportamento.

• Sem streaming. Ao contrário do modo streaming do Whisper, o SenseVoice processa o áudio completo após a gravação. Para ficheiros longos, segmenta automaticamente nos pontos de silêncio e mostra resultados progressivamente.

Estas são restrições arquiteturais, não bugs. Um modelo treinado em 5 idiomas domina esses 5 idiomas excecionalmente bem. O suporte de 99+ idiomas do Whisper acarreta menor velocidade e taxas de erro mais elevadas em cada idioma individual.

Experimente

O SenseVoice está disponível no Whisper Notes para Mac v1.4.8 e posteriores. Descarregue-o em Definições → Modelo de transcrição → SenseVoice Small (~827 MB). Requer um Mac com Apple Silicon (M1 ou posterior).

Se usa o Parakeet V3 e dita principalmente em inglês, não precisa de mudar. O SenseVoice é para quando precisa de chinês, japonês, coreano ou cantonês — e quer que seja rápido.

Descarregar para Mac

Registo de alterações completo: whispernotes.app/changelog

Questões ou feedback: mac@whispernotes.app