SenseVoice: Transcripción 52× más rápida para chino, japonés y coreano en Mac

12 de mayo de 2026
·
7 min read
·Whisper Notes Team

RESUMEN — Tres modelos Mac comparados

Parakeet V3 SenseVoice Small Whisper Large V3 Turbo
5 min inglés 2,91s (103×) 5,8s (52×) 20,92s (14,3×)
27 min chino 10,10s (161×) 13,83s (118×) 2 min 4s (13,1×)
Idiomas 25 (europeos) 5 (zh, en, ja, ko, yue) 99+
Descarga 465 MB 827 MB 1,5 GB
Memoria ~800 MB ~700 MB ~1,6 GB
Ideal para Inglés & europeo Chino, japonés, coreano, cantonés Todo lo demás (99+ idiomas)

* Benchmarks de velocidad en Apple M4 Pro, 32 GB. Podcast en inglés de 5 minutos y podcast en chino de 27 minutos. Factor de tiempo real = duración del audio ÷ tiempo de procesamiento (mayor = más rápido). SenseVoice es solo para macOS. iOS usa Parakeet (vía ANE) y Whisper.

A partir de la versión 1.4.8, Whisper Notes para Mac incluye SenseVoice Small como motor dedicado para la transcripción de chino, japonés, coreano y cantonés. Reemplaza a Qwen3-ASR y se ejecuta en la GPU de Apple mediante MLX en lugar de la CPU — procesando un podcast en chino de 27 minutos en 13,83 segundos en vez de 3 minutos y 44 segundos.

Por qué reemplazamos Qwen3-ASR

Qwen3-ASR era un modelo sólido. Soportaba 30 idiomas más 22 dialectos chinos, y su precisión en chino estaba cerca del estado del arte. Pero tenía un problema que empeoraba con la duración del audio: la velocidad.

Qwen3 usaba una arquitectura autorregresiva — el mismo enfoque que Whisper, procesando el audio fotograma a fotograma, sin saltar nunca hacia adelante. En un podcast en chino de 27 minutos, tardaba 73 segundos. Utilizable, pero no la experiencia de resultado instantáneo que Parakeet V3 ofrece para inglés.

El problema más profundo era nuestra infraestructura. Nuestra integración de Qwen3 usaba sherpa-onnx, una biblioteca C con un wrapper Swift de 2.249 líneas que enrutaba todo a través de los núcleos de la CPU. La GPU permanecía inactiva mientras la CPU de tu Mac hacía todo el trabajo.

SenseVoice solucionó ambos problemas. Arquitectura no autorregresiva para la velocidad. Apple MLX para aceleración GPU. El resultado: una mejora de velocidad de 16,2× en el mismo hardware, con un código reducido de 2.249 a 288 líneas.

El benchmark

Los tres modelos ejecutándose en el mismo Apple M4 Pro, mismos archivos de audio, mismas condiciones. Sin nube. Sin internet. Solo silicio.

Modelo 5 min inglés 27 min chino Velocidad (RTFx)
Parakeet V3 2,91s 10,10s 103–161×
SenseVoice Small 5,8s 13,83s 52–118×
Whisper Large V3 Turbo 20,92s 2 min 4s 13–14×
Qwen3-ASR (eliminado) 73s 4,7×

SenseVoice es aproximadamente la mitad de rápido que Parakeet V3 — pero sigue siendo extraordinariamente rápido. Un podcast de 27 minutos se completa en menos de 14 segundos. Pulsas transcribir, esperas un instante, y el texto está ahí.

Compáralo con Whisper a 2 minutos y 4 segundos, o el antiguo Qwen3 a 73 segundos. La arquitectura importa más que la cantidad de parámetros.

Tabla oficial de comparación de velocidad de inferencia del paper FunAudioLLM: SenseVoice-Small (70ms por 10s de audio) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - mostrando arquitectura del modelo, parámetros, idiomas soportados, RTF y latencia

Benchmark oficial de inferencia del paper FunAudioLLM: SenseVoice-Small procesa 10s de audio en 70ms (GPU A800). Whisper-Large-V3 tarda 1.281ms. Eso es una diferencia de 18× en latencia de inferencia pura.

Modelo Tiempo de carga Memoria Tamaño de descarga
Parakeet V3 0,77s ~800 MB 465 MB
SenseVoice Small 0,81s ~700 MB 827 MB
Whisper Small 1,03s ~487 MB 600 MB
Whisper Large V3 Turbo 3,18s ~1,6 GB 3 GB

* Tiempo de carga y memoria medidos en Apple M4 Pro, 32 GB.

SenseVoice se carga en menos de un segundo y usa menos memoria que Parakeet. En un Mac de 8 GB, funciona cómodamente junto a tus otras aplicaciones.

Por qué SenseVoice es más rápido: arquitectura + entorno de ejecución

La diferencia de velocidad entre Qwen3-ASR y SenseVoice proviene de dos factores independientes.

Factor 1: Arquitectura del modelo. Qwen3-ASR es autorregresivo — genera texto token a token, cada uno dependiendo del anterior. SenseVoice usa un codificador no autorregresivo (NAR) que procesa todo el audio en paralelo. Esta diferencia arquitectónica por sí sola hace que SenseVoice sea fundamentalmente más rápido, independientemente del hardware que uses.

Factor 2: Entorno de ejecución. Nuestra integración de Qwen3-ASR usaba sherpa-onnx, que se ejecutaba en CPU. SenseVoice funciona a través de Apple MLX, enviando los cálculos a la GPU. ¿Podría Qwen3 también ejecutarse en MLX? Sí — pero seguiría siendo más lento que SenseVoice porque el cuello de botella autorregresivo está en la arquitectura, no en el entorno de ejecución.

Qwen3-ASR (anterior) SenseVoice (nuevo)
Arquitectura Autorregresiva (token a token) No autorregresiva (paralela)
Entorno de ejecución sherpa-onnx (CPU) Apple MLX (GPU)
27 min chino 224 segundos 13,83 segundos
Aceleración combinada línea base 16,2× más rápido
Código fuente Framework C de 168 MB + 2.249 líneas Swift 288 líneas Swift Actor

* Mismo podcast chino de 27 minutos, Apple M4 Pro. La aceleración de 16,2× combina mejoras tanto arquitectónicas (NAR vs AR) como de entorno de ejecución (GPU vs CPU).

El código también se simplificó. La nueva implementación de SenseVoice es un único Swift Actor de 288 líneas que se comunica directamente con MLX, reemplazando un framework C de 168 MB. Menos código, menos errores, aplicación más pequeña.

Cinco idiomas, bien hechos

SenseVoice no intenta hacerlo todo. Maneja cinco idiomas:

Idioma SenseVoice-Small Whisper-Large-V3 Ganador
Chino (zh-CN) 10,78% CER 12,55% CER SenseVoice (-14%)
Cantonés (yue) 7,09% CER 10,41% CER SenseVoice (-32%)
Japonés (ja) 11,96% CER 10,34% CER Whisper (ligeramente)
Coreano (ko) 8,28% CER 5,59% CER Whisper
Inglés (en) 14,71% WER 9,39% WER Whisper (usa Parakeet)

* Benchmark CommonVoice, CER = tasa de error por carácter, WER = tasa de error por palabra. Menor es mejor. Fuente: paper FunAudioLLM (2024). Latencia de inferencia de SenseVoice-Small: 70ms por 10s de audio (GPU A800), más de 15× más rápido que Whisper-Large-V3.

Comparación de precisión SenseVoice vs Whisper en el benchmark CommonVoice para chino, cantonés, inglés, japonés, coreano y 25 idiomas más - gráfico de barras WER/CER

Benchmark CommonVoice: SenseVoice-Small (amarillo) vs Whisper-Small (azul) vs Whisper-Large-V3 (naranja). Menor es mejor. Fuente: paper FunAudioLLM

Los números cuentan una historia honesta. SenseVoice supera a Whisper en precisión para chino y cantonés por un margen significativo, mientras que Whisper es más preciso para japonés, coreano e inglés. Pero SenseVoice es más de 15× más rápido que Whisper-Large-V3. Para la mayoría de los usos reales, la diferencia de velocidad importa más que unos pocos puntos porcentuales de precisión.

El resultado del cantonés merece destacarse por separado. Whisper-Small obtiene 38,97% de CER en cantonés — prácticamente inutilizable. Incluso Whisper-Large-V3 solo logra 10,41%. SenseVoice alcanza 7,09%. Antes de SenseVoice, no existía una buena forma de transcribir cantonés localmente en un Mac. Si hablas cantonés, este modelo existe para ti.

Resultado de transcripción coreana con SenseVoice en Whisper Notes para Mac mostrando texto coreano preciso de un vídeo

Transcripción coreana con SenseVoice: importación de vídeo con subtítulos con marca de tiempo

Prueba en el mundo real: podcast chino de 27 minutos

Transcribimos un episodio de 27 minutos de Thirteen Invitations (十三邀), un podcast de entrevistas en chino, con SenseVoice y Whisper Large V3 Turbo en el mismo M4 Pro. ElevenLabs Scribe (nube) sirvió como referencia. Ambos modelos en el dispositivo cometen aproximadamente el mismo número de errores, pero de tipos diferentes:

SenseVoice Whisper Large V3
Tiempo 13,83s 2 min 4s
Errores (muestra de 5 min) ~15–20 ~12–15
Peor error 时差→食堂 (huso horario→cafetería) 西昌→西藏 (ciudad de Xichang→Tíbet, 4.000 km de diferencia)
Patrón de errores Intercambios de homófonos Errores geográficos/factuales

* Comparación manual con ElevenLabs Scribe (referencia en la nube, también imperfecta). Ambos modelos en el dispositivo escribieron correctamente «根深蒂固» donde Scribe se equivocó.

Precisión comparable. 9× más rápido. Para transcripción de chino en el mundo real, SenseVoice te entrega un transcript utilizable antes de que Whisper termine de cargar.

Cuándo usar cada modelo

Whisper Notes para Mac ahora incluye cuatro modelos de voz. Cada uno está optimizado para diferentes escenarios:

Necesitas... Usa este modelo Por qué
Inglés o idiomas europeos, máxima velocidad Parakeet V3 103× tiempo real, menor tasa de error. El predeterminado.
Chino, japonés, coreano o cantonés SenseVoice Small 52–118× tiempo real. Único modelo con soporte para cantonés.
Cualquiera de 99+ idiomas (árabe, tailandés, ruso, etc.) Whisper Large V3 Turbo Mayor soporte de idiomas. Más lento pero universal.
Menor uso de memoria (Mac antiguos) Whisper Small 487 MB de memoria. Bueno para Mac de 8 GB con otras apps abiertas.
Selector de modelos de Whisper Notes Mac mostrando Parakeet V3, SenseVoice Small, Whisper Small y Whisper Large V3 Turbo con tamaños de descarga y soporte de idiomas

Ajustes → Modelo de transcripción: elige el motor adecuado para tu idioma

El selector de modelos en Ajustes muestra las cuatro opciones con tamaños de descarga, cantidad de idiomas y requisitos de memoria. SenseVoice se descarga en el primer uso (~827 MB) y permanece en tu dispositivo.

Las limitaciones

SenseVoice no es un modelo universal. Esto es lo que no puede hacer:

Solo 5 idiomas. Si necesitas tailandés, ruso, árabe, hindi o cualquiera de los más de 90 idiomas que soporta Whisper, quédate con Whisper.

Solo Mac. SenseVoice funciona mediante Apple MLX, que requiere macOS. No está disponible en iPhone. Los usuarios de iOS tienen Parakeet (para idiomas europeos) y Whisper.

Particularidad con audio silencioso. Durante segmentos muy cortos o muy silenciosos, SenseVoice puede a veces producir texto en chino independientemente del idioma seleccionado. Configurar el idioma manualmente (en lugar de «Auto») reduce este comportamiento.

Sin streaming. A diferencia del modo streaming de Whisper, SenseVoice procesa el audio completo después de la grabación. Para archivos largos, segmenta automáticamente en los puntos de silencio y muestra los resultados progresivamente.

Estas son limitaciones arquitectónicas, no errores. Un modelo entrenado en 5 idiomas domina esos 5 idiomas extremadamente bien. El soporte de 99+ idiomas de Whisper conlleva menor velocidad y mayores tasas de error en cada idioma individual.

Pruébalo

SenseVoice está disponible en Whisper Notes para Mac v1.4.8 y posteriores. Descárgalo desde Ajustes → Modelo de transcripción → SenseVoice Small (~827 MB). Requiere un Mac con Apple Silicon (M1 o posterior).

Si usas Parakeet V3 y dictas principalmente en inglés, no necesitas cambiar. SenseVoice es para cuando necesitas chino, japonés, coreano o cantonés — y lo quieres rápido.

Descargar para Mac

Registro de cambios completo: whispernotes.app/changelog

Preguntas o comentarios: mac@whispernotes.app