SenseVoice: Transcripción 52× más rápida para chino, japonés y coreano en Mac

TL;DR -- Tres modelos de Mac comparados

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 min ingles	2.91s (103×)	5.8s (52×)	20.92s (14.3×)
27 min chino	10.10s (161×)	13.83s (118×)	2 min 4s (13.1×)
Idiomas	25 (europeos)	5 (zh, en, ja, ko, yue)	99+
Descarga	465 MB	827 MB	1.5 GB
Memoria	~800 MB	~700 MB	~1.6 GB
Mejor para	Ingles & europeos	Chino, japones, coreano, cantones	Todo lo demas (99+ idiomas)

* Benchmarks de velocidad en Apple M4 Pro, 32 GB. Podcast de 5 minutos en ingles y podcast de 27 minutos en chino. Factor de tiempo real = duracion del audio / tiempo de procesamiento (mayor = mas rapido). SenseVoice es solo para macOS. iOS usa Parakeet (via ANE) y Whisper.

A partir de la version 1.4.8, Whisper Notes para Mac incluye SenseVoice Small como motor dedicado para transcripcion en chino, japones, coreano y cantones. Reemplaza a Qwen3-ASR y corre en la GPU de Apple via MLX en lugar de la CPU -- procesando un podcast chino de 27 minutos en 13.83 segundos en lugar de 3 minutos con 44 segundos.

Por que reemplazamos Qwen3-ASR

Qwen3-ASR era un modelo solido. Soportaba 30 idiomas mas 22 dialectos chinos, y su precision para chino estaba cerca del estado del arte. Pero tenia un problema que empeoraba con la duracion del audio: la velocidad.

Qwen3 usaba una arquitectura autorregresiva -- el mismo enfoque que Whisper, procesando audio cuadro por cuadro, sin adelantarse nunca. En un podcast chino de 27 minutos, tardaba 73 segundos. Utilizable, pero no la experiencia de resultado instantaneo que Parakeet V3 ofrece para ingles.

El problema mas profundo era nuestra infraestructura. Nuestra integracion de Qwen3 usaba sherpa-onnx, una biblioteca en C con un wrapper de Swift de 2,249 lineas que dirigia todo a traves de los nucleos del CPU. La GPU estaba ociosa mientras el CPU de tu Mac hacia todo el trabajo.

SenseVoice resolvio ambos problemas. Arquitectura no autorregresiva para velocidad. Apple MLX para aceleracion de GPU. El resultado: una mejora de velocidad de 16.2× en el mismo hardware, con un codigo reducido de 2,249 lineas a 288.

El benchmark

Los tres modelos corriendo en el mismo Apple M4 Pro, los mismos archivos de audio, las mismas condiciones. Sin nube. Sin internet. Solo silicio.

Modelo	5 min ingles	27 min chino	Velocidad (RTFx)
Parakeet V3	2.91s	10.10s	103--161×
SenseVoice Small	5.8s	13.83s	52--118×
Whisper Large V3 Turbo	20.92s	2 min 4s	13--14×
Qwen3-ASR (eliminado)	--	73s	4.7×

SenseVoice es aproximadamente la mitad de rapido que Parakeet V3 -- aun asi extraordinariamente rapido. Un podcast de 27 minutos se completa en menos de 14 segundos. Presionas transcribir, esperas un respiro, y el texto ya esta ahi.

Compara eso con Whisper a 2 minutos con 4 segundos, o el viejo Qwen3 a 73 segundos. La arquitectura importa mas que la cantidad de parametros.

Tabla oficial de comparacion de velocidad de inferencia del articulo FunAudioLLM: SenseVoice-Small (70ms por 10s de audio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - arquitectura del modelo, parametros, idiomas soportados, RTF y latencia

Benchmark oficial de inferencia del articulo FunAudioLLM: SenseVoice-Small procesa 10s de audio en 70ms (A800 GPU). Whisper-Large-V3 tarda 1,281ms. Eso es una diferencia de 18× en latencia bruta de inferencia.

Modelo	Tiempo de carga	Memoria	Tamano de descarga
Parakeet V3	0.77s	~800 MB	465 MB
SenseVoice Small	0.81s	~700 MB	827 MB
Whisper Small	1.03s	~487 MB	600 MB
Whisper Large V3 Turbo	3.18s	~1.6 GB	3 GB

* Tiempo de carga y memoria medidos en Apple M4 Pro, 32 GB.

SenseVoice carga en menos de un segundo y usa menos memoria que Parakeet. En una Mac de 8 GB, corre comodamente junto con tus otras aplicaciones.

Por que SenseVoice es mas rapido: Arquitectura + Runtime

La diferencia de velocidad entre Qwen3-ASR y SenseVoice viene de dos factores independientes.

Factor 1: Arquitectura del modelo. Qwen3-ASR es autorregresivo -- genera texto token por token, cada uno dependiendo del anterior. SenseVoice usa un codificador no autorregresivo (NAR) que procesa todo el audio en paralelo. Esta diferencia arquitectonica por si sola hace que SenseVoice sea fundamentalmente mas rapido, sin importar en que hardware lo corras.

Factor 2: Runtime. Nuestra integracion de Qwen3-ASR usaba sherpa-onnx, que corria en CPU. SenseVoice corre a traves de Apple MLX, dirigiendo la computacion a la GPU. Podria Qwen3 tambien correr en MLX? Si -- pero seguiria siendo mas lento que SenseVoice porque el cuello de botella autorregresivo esta en la arquitectura, no en el runtime.

	Qwen3-ASR (anterior)	SenseVoice (nuevo)
Arquitectura	Autorregresiva (token por token)	No autorregresiva (paralela)
Runtime	sherpa-onnx (CPU)	Apple MLX (GPU)
27 min chino	224 segundos	13.83 segundos
Aceleracion combinada	linea base	16.2× mas rapido
Codigo	Framework C de 168 MB + 2,249 lineas Swift	288 lineas Swift Actor

* Mismo podcast chino de 27 minutos, Apple M4 Pro. La aceleracion de 16.2× combina mejoras tanto arquitectonicas (NAR vs AR) como de runtime (GPU vs CPU).

El codigo tambien se simplifico. La nueva implementacion de SenseVoice es un unico Swift Actor de 288 lineas que se comunica directamente con MLX, reemplazando un framework C de 168 MB. Menos codigo, menos bugs, app mas pequena.

Cinco idiomas, bien hechos

SenseVoice no intenta hacer todo. Maneja cinco idiomas:

Idioma	SenseVoice-Small	Whisper-Large-V3	Ganador
Chino (zh-CN)	10.78% CER	12.55% CER	SenseVoice (-14%)
Cantones (yue)	7.09% CER	10.41% CER	SenseVoice (-32%)
Japones (ja)	11.96% CER	10.34% CER	Whisper (ligero)
Coreano (ko)	8.28% CER	5.59% CER	Whisper
Ingles (en)	14.71% WER	9.39% WER	Whisper (usa Parakeet)

* Benchmark CommonVoice, CER = Character Error Rate, WER = Word Error Rate. Menor es mejor. Fuente: articulo FunAudioLLM (2024). Latencia de inferencia de SenseVoice-Small: 70ms por 10s de audio (A800 GPU), mas de 15× mas rapido que Whisper-Large-V3.

Comparacion de precision SenseVoice vs Whisper en el benchmark CommonVoice para chino, cantones, ingles, japones, coreano y 25 idiomas mas - grafico de barras WER/CER

Benchmark CommonVoice: SenseVoice-Small (amarillo) vs Whisper-Small (azul) vs Whisper-Large-V3 (naranja). Menor es mejor. Fuente: articulo FunAudioLLM

Los numeros cuentan una historia honesta. SenseVoice supera a Whisper en precision para chino y cantones por un margen significativo, mientras que Whisper es mas preciso para japones, coreano e ingles. Pero SenseVoice es mas de 15× mas rapido que Whisper-Large-V3. Para la mayoria de los usos reales, la diferencia de velocidad importa mas que unos cuantos puntos porcentuales de precision.

El resultado del cantones merece destacarse por separado. Whisper-Small obtiene 38.97% CER en cantones -- casi inutilizable. Incluso Whisper-Large-V3 solo alcanza 10.41%. SenseVoice llega a 7.09%. Antes de SenseVoice, no habia una buena forma de transcribir cantones localmente en una Mac. Si hablas cantones, este modelo existe para ti.

Resultado de transcripcion coreana de SenseVoice en Whisper Notes para Mac mostrando texto coreano preciso de un video

Transcripcion coreana con SenseVoice: importacion de video con subtitulos con marcas de tiempo

Prueba real: podcast chino de 27 minutos

Transcribimos un episodio de 27 minutos de Thirteen Invitations (十三邀), un podcast de entrevistas chino, con SenseVoice y Whisper Large V3 Turbo en la misma M4 Pro. ElevenLabs Scribe (nube) sirvio como referencia. Ambos modelos locales cometen aproximadamente el mismo numero de errores, pero de diferentes tipos:

	SenseVoice	Whisper Large V3
Tiempo	13.83s	2 min 4s
Errores (muestra de 5 min)	~15--20	~12--15
Peor error	时差→食堂 (zona horaria→comedor)	西昌→西藏 (ciudad Xichang→Tibet, 4,000 km de error)
Patron de errores	Intercambios de homofonos	Errores geograficos/factuales

* Comparacion manual contra ElevenLabs Scribe (referencia en la nube, tambien imperfecta). Ambos modelos locales escribieron correctamente "根深蒂固" donde Scribe se equivoco.

Precision comparable. 9× mas rapido. Para la transcripcion de chino en el mundo real, SenseVoice te da un transcrito utilizable antes de que Whisper termine de cargar.

Cuando usar cual modelo

Whisper Notes para Mac ahora incluye cuatro modelos de voz. Cada uno esta optimizado para diferentes escenarios:

Necesitas...	Usa este modelo	Por que
Ingles o idiomas europeos, velocidad maxima	Parakeet V3	103× tiempo real, menor tasa de error. El predeterminado.
Chino, japones, coreano o cantones	SenseVoice Small	52--118× tiempo real. Unico modelo con soporte para cantones.
Cualquiera de 99+ idiomas (arabe, tailandes, ruso, etc.)	Whisper Large V3 Turbo	Mayor soporte de idiomas. Mas lento pero universal.
Menor uso de memoria (Macs mas viejas)	Whisper Small	487 MB de memoria. Bueno para Macs de 8 GB corriendo otras apps.

Selector de modelo de Whisper Notes Mac mostrando Parakeet V3, SenseVoice Small, Whisper Small y Whisper Large V3 Turbo con tamanos de descarga y soporte de idiomas

Configuracion → Modelo de transcripcion: elige el motor adecuado para tu idioma

El selector de modelos en Configuracion muestra las cuatro opciones con tamanos de descarga, cantidad de idiomas y requisitos de memoria. SenseVoice se descarga en el primer uso (~827 MB) y se queda en tu dispositivo.

Los compromisos

SenseVoice no es un modelo universal. Esto es lo que no puede hacer:

* Solo 5 idiomas. Si necesitas tailandes, ruso, arabe, hindi o cualquiera de los otros 90+ idiomas que soporta Whisper, quedate con Whisper.

* Solo Mac. SenseVoice corre via Apple MLX, que requiere macOS. No esta disponible en iPhone. Los usuarios de iOS tienen Parakeet (para idiomas europeos) y Whisper.

* Peculiaridad con audio silencioso. Durante segmentos muy cortos o muy silenciosos, SenseVoice puede a veces volver a salida en chino sin importar el idioma seleccionado. Configurar el idioma manualmente (en lugar de "Auto") reduce esto.

* Sin streaming. A diferencia del modo de streaming de Whisper, SenseVoice procesa el audio completo despues de la grabacion. Para archivos largos, segmenta automaticamente en los puntos de silencio y muestra resultados progresivamente.

Estas son restricciones arquitectonicas, no bugs. Un modelo entrenado en 5 idiomas hace esos 5 idiomas extremadamente bien. El soporte de Whisper para 99+ idiomas viene con velocidad mas lenta y tasas de error mas altas en cada idioma individual.

Pruebalo

SenseVoice esta disponible en Whisper Notes para Mac v1.4.8 y posteriores. Descargalo desde Configuracion → Modelo de transcripcion → SenseVoice Small (~827 MB). Requiere una Mac con Apple Silicon (M1 o posterior).

Si estas usando Parakeet V3 y dictas principalmente en ingles, no hay necesidad de cambiar. SenseVoice es para cuando necesitas chino, japones, coreano o cantones -- y lo quieres rapido.

Descargar para Mac

Changelog completo: whispernotes.app/changelog

Preguntas o comentarios: mac@whispernotes.app