SenseVoice: Transcrição 52× mais rápida para chinês, japonês e coreano no Mac

TL;DR -- Tres modelos Mac comparados

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 min ingles	2.91s (103×)	5.8s (52×)	20.92s (14.3×)
27 min chines	10.10s (161×)	13.83s (118×)	2 min 4s (13.1×)
Idiomas	25 (europeus)	5 (zh, en, ja, ko, yue)	99+
Download	465 MB	827 MB	1.5 GB
Memoria	~800 MB	~700 MB	~1.6 GB
Melhor para	Ingles & europeus	Chines, japones, coreano, cantones	Todo o resto (99+ idiomas)

* Benchmarks de velocidade no Apple M4 Pro, 32 GB. Podcast de 5 minutos em ingles e podcast de 27 minutos em chines. Fator de tempo real = duracao do audio / tempo de processamento (maior = mais rapido). SenseVoice e apenas para macOS. iOS usa Parakeet (via ANE) e Whisper.

A partir da versao 1.4.8, o Whisper Notes para Mac inclui o SenseVoice Small como motor dedicado para transcricao em chines, japones, coreano e cantones. Ele substitui o Qwen3-ASR e roda na GPU da Apple via MLX em vez da CPU -- processando um podcast chines de 27 minutos em 13,83 segundos em vez de 3 minutos e 44 segundos.

Por que substituimos o Qwen3-ASR

O Qwen3-ASR era um modelo solido. Suportava 30 idiomas mais 22 dialetos chineses, e sua precisao para chines estava proxima do estado da arte. Mas tinha um problema que piorava quanto mais longo o audio: velocidade.

O Qwen3 usava uma arquitetura autorregressiva -- a mesma abordagem do Whisper, processando audio quadro a quadro, sem nunca pular para frente. Em um podcast chines de 27 minutos, levava 73 segundos. Utilizavel, mas nao a experiencia de resultado instantaneo que o Parakeet V3 oferece para ingles.

O problema mais profundo era nossa infraestrutura. Nossa integracao do Qwen3 usava sherpa-onnx, uma biblioteca C com um wrapper Swift de 2.249 linhas que direcionava tudo atraves dos nucleos da CPU. A GPU ficava ociosa enquanto a CPU do seu Mac fazia todo o trabalho.

O SenseVoice resolveu ambos os problemas. Arquitetura nao autorregressiva para velocidade. Apple MLX para aceleracao de GPU. O resultado: uma melhoria de velocidade de 16,2× no mesmo hardware, com uma base de codigo reduzida de 2.249 linhas para 288.

O benchmark

Os tres modelos rodando no mesmo Apple M4 Pro, mesmos arquivos de audio, mesmas condicoes. Sem nuvem. Sem internet. Apenas silicio.

Modelo	5 min ingles	27 min chines	Velocidade (RTFx)
Parakeet V3	2.91s	10.10s	103--161×
SenseVoice Small	5.8s	13.83s	52--118×
Whisper Large V3 Turbo	20.92s	2 min 4s	13--14×
Qwen3-ASR (removido)	--	73s	4.7×

O SenseVoice e aproximadamente metade da velocidade do Parakeet V3 -- ainda assim extraordinariamente rapido. Um podcast de 27 minutos e concluido em menos de 14 segundos. Voce pressiona transcrever, espera uma respiracao, e o texto ja esta la.

Compare isso com o Whisper em 2 minutos e 4 segundos, ou o antigo Qwen3 em 73 segundos. A arquitetura importa mais do que a quantidade de parametros.

Tabela oficial de comparacao de velocidade de inferencia do artigo FunAudioLLM: SenseVoice-Small (70ms por 10s de audio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - arquitetura do modelo, parametros, idiomas suportados, RTF e latencia

Benchmark oficial de inferencia do artigo FunAudioLLM: SenseVoice-Small processa 10s de audio em 70ms (A800 GPU). Whisper-Large-V3 leva 1.281ms. Isso e uma diferenca de 18× em latencia bruta de inferencia.

Modelo	Tempo de carregamento	Memoria	Tamanho do download
Parakeet V3	0.77s	~800 MB	465 MB
SenseVoice Small	0.81s	~700 MB	827 MB
Whisper Small	1.03s	~487 MB	600 MB
Whisper Large V3 Turbo	3.18s	~1.6 GB	3 GB

* Tempo de carregamento e memoria medidos no Apple M4 Pro, 32 GB.

O SenseVoice carrega em menos de um segundo e usa menos memoria do que o Parakeet. Em um Mac de 8 GB, ele roda confortavelmente junto com seus outros aplicativos.

Por que o SenseVoice e mais rapido: Arquitetura + Runtime

A diferenca de velocidade entre o Qwen3-ASR e o SenseVoice vem de dois fatores independentes.

Fator 1: Arquitetura do modelo. O Qwen3-ASR e autorregressivo -- ele gera texto token por token, cada um dependendo do anterior. O SenseVoice usa um codificador nao autorregressivo (NAR) que processa todo o audio em paralelo. Essa diferenca arquitetural sozinha torna o SenseVoice fundamentalmente mais rapido, independentemente do hardware utilizado.

Fator 2: Runtime. Nossa integracao do Qwen3-ASR usava sherpa-onnx, que rodava na CPU. O SenseVoice roda atraves do Apple MLX, direcionando a computacao para a GPU. O Qwen3 poderia tambem rodar no MLX? Sim -- mas ainda seria mais lento que o SenseVoice porque o gargalo autorregressivo esta na arquitetura, nao no runtime.

	Qwen3-ASR (antigo)	SenseVoice (novo)
Arquitetura	Autorregressiva (token por token)	Nao autorregressiva (paralela)
Runtime	sherpa-onnx (CPU)	Apple MLX (GPU)
27 min chines	224 segundos	13,83 segundos
Aceleracao combinada	linha de base	16,2× mais rapido
Base de codigo	Framework C de 168 MB + 2.249 linhas Swift	288 linhas Swift Actor

* Mesmo podcast chines de 27 minutos, Apple M4 Pro. A aceleracao de 16,2× combina melhorias tanto arquiteturais (NAR vs AR) quanto de runtime (GPU vs CPU).

O codigo tambem ficou mais simples. A nova implementacao do SenseVoice e um unico Swift Actor de 288 linhas que se comunica diretamente com o MLX, substituindo um framework C de 168 MB. Menos codigo, menos bugs, app menor.

Cinco idiomas, bem feitos

O SenseVoice nao tenta fazer tudo. Ele lida com cinco idiomas:

Idioma	SenseVoice-Small	Whisper-Large-V3	Vencedor
Chines (zh-CN)	10.78% CER	12.55% CER	SenseVoice (-14%)
Cantones (yue)	7.09% CER	10.41% CER	SenseVoice (-32%)
Japones (ja)	11.96% CER	10.34% CER	Whisper (leve)
Coreano (ko)	8.28% CER	5.59% CER	Whisper
Ingles (en)	14.71% WER	9.39% WER	Whisper (use Parakeet)

* Benchmark CommonVoice, CER = Character Error Rate, WER = Word Error Rate. Menor e melhor. Fonte: artigo FunAudioLLM (2024). Latencia de inferencia do SenseVoice-Small: 70ms por 10s de audio (A800 GPU), mais de 15× mais rapido que Whisper-Large-V3.

Comparacao de precisao SenseVoice vs Whisper no benchmark CommonVoice para chines, cantones, ingles, japones, coreano e 25 outros idiomas - grafico de barras WER/CER

Benchmark CommonVoice: SenseVoice-Small (amarelo) vs Whisper-Small (azul) vs Whisper-Large-V3 (laranja). Menor e melhor. Fonte: artigo FunAudioLLM

Os numeros contam uma historia honesta. O SenseVoice supera o Whisper em precisao para chines e cantones por uma margem significativa, enquanto o Whisper e mais preciso para japones, coreano e ingles. Mas o SenseVoice e mais de 15× mais rapido que o Whisper-Large-V3. Para a maioria dos usos reais, a diferenca de velocidade importa mais do que alguns pontos percentuais de precisao.

O resultado do cantones merece destaque separado. O Whisper-Small obtem 38,97% de CER em cantones -- quase inutilizavel. Mesmo o Whisper-Large-V3 alcanca apenas 10,41%. O SenseVoice atinge 7,09%. Antes do SenseVoice, nao havia uma boa forma de transcrever cantones localmente em um Mac. Se voce fala cantones, este modelo existe para voce.

Resultado de transcricao coreana do SenseVoice no Whisper Notes para Mac mostrando texto coreano preciso de um video

Transcricao coreana com SenseVoice: importacao de video com legendas com marcacao de tempo

Teste real: podcast chines de 27 minutos

Transcrevemos um episodio de 27 minutos do Thirteen Invitations (十三邀), um podcast de entrevistas chines, com SenseVoice e Whisper Large V3 Turbo no mesmo M4 Pro. O ElevenLabs Scribe (nuvem) serviu como referencia. Ambos os modelos locais cometem aproximadamente o mesmo numero de erros, mas de tipos diferentes:

	SenseVoice	Whisper Large V3
Tempo	13.83s	2 min 4s
Erros (amostra de 5 min)	~15--20	~12--15
Pior erro	时差→食堂 (fuso horario→refeitorio)	西昌→西藏 (cidade Xichang→Tibete, 4.000 km de erro)
Padrao de erros	Trocas de homofonos	Erros geograficos/factuais

* Comparacao manual contra ElevenLabs Scribe (referencia na nuvem, tambem imperfeita). Ambos os modelos locais escreveram corretamente "根深蒂固" onde o Scribe errou.

Precisao comparavel. 9× mais rapido. Para transcricao de chines no mundo real, o SenseVoice te entrega um transcrito utilizavel antes do Whisper terminar de carregar.

Quando usar qual modelo

O Whisper Notes para Mac agora inclui quatro modelos de fala. Cada um e otimizado para cenarios diferentes:

Voce precisa de...	Use este modelo	Por que
Ingles ou idiomas europeus, velocidade maxima	Parakeet V3	103× tempo real, menor taxa de erro. O padrao.
Chines, japones, coreano ou cantones	SenseVoice Small	52--118× tempo real. Unico modelo com suporte a cantones.
Qualquer um dos 99+ idiomas (arabe, tailandes, russo, etc.)	Whisper Large V3 Turbo	Maior suporte a idiomas. Mais lento, mas universal.
Menor uso de memoria (Macs mais antigos)	Whisper Small	487 MB de memoria. Bom para Macs de 8 GB rodando outros apps.

Seletor de modelo do Whisper Notes Mac mostrando Parakeet V3, SenseVoice Small, Whisper Small e Whisper Large V3 Turbo com tamanhos de download e suporte a idiomas

Configuracoes → Modelo de transcricao: escolha o motor certo para seu idioma

O seletor de modelos nas Configuracoes mostra todas as quatro opcoes com tamanhos de download, numero de idiomas e requisitos de memoria. O SenseVoice e baixado no primeiro uso (~827 MB) e permanece no seu dispositivo.

Os compromissos

O SenseVoice nao e um modelo universal. Eis o que ele nao pode fazer:

* Apenas 5 idiomas. Se voce precisa de tailandes, russo, arabe, hindi ou qualquer um dos outros 90+ idiomas que o Whisper suporta, fique com o Whisper.

* Apenas Mac. O SenseVoice roda via Apple MLX, que requer macOS. Nao esta disponivel no iPhone. Usuarios de iOS tem Parakeet (para idiomas europeus) e Whisper.

* Peculiaridade com audio silencioso. Durante segmentos muito curtos ou muito silenciosos, o SenseVoice pode as vezes voltar para saida em chines independentemente do idioma selecionado. Definir o idioma manualmente (em vez de "Auto") reduz isso.

* Sem streaming. Diferentemente do modo de streaming do Whisper, o SenseVoice processa o audio completo apos a gravacao. Para arquivos longos, ele segmenta automaticamente nos pontos de silencio e mostra resultados progressivamente.

Essas sao restricoes arquiteturais, nao bugs. Um modelo treinado em 5 idiomas faz esses 5 idiomas extremamente bem. O suporte a 99+ idiomas do Whisper vem com velocidade mais lenta e taxas de erro mais altas em cada idioma individual.

Experimente

O SenseVoice esta disponivel no Whisper Notes para Mac v1.4.8 e posteriores. Baixe-o em Configuracoes → Modelo de transcricao → SenseVoice Small (~827 MB). Requer um Mac com Apple Silicon (M1 ou posterior).

Se voce esta no Parakeet V3 e dita principalmente em ingles, nao ha necessidade de trocar. O SenseVoice e para quando voce precisa de chines, japones, coreano ou cantones -- e quer rapido.

Baixar para Mac

Changelog completo: whispernotes.app/changelog

Duvidas ou feedback: mac@whispernotes.app