TL;DR -- Tres modelos de Mac comparados
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 min ingles | 2.91s (103×) | 5.8s (52×) | 20.92s (14.3×) |
| 27 min chino | 10.10s (161×) | 13.83s (118×) | 2 min 4s (13.1×) |
| Idiomas | 25 (europeos) | 5 (zh, en, ja, ko, yue) | 99+ |
| Descarga | 465 MB | 827 MB | 1.5 GB |
| Memoria | ~800 MB | ~700 MB | ~1.6 GB |
| Mejor para | Ingles & europeos | Chino, japones, coreano, cantones | Todo lo demas (99+ idiomas) |
* Benchmarks de velocidad en Apple M4 Pro, 32 GB. Podcast de 5 minutos en ingles y podcast de 27 minutos en chino. Factor de tiempo real = duracion del audio / tiempo de procesamiento (mayor = mas rapido). SenseVoice es solo para macOS. iOS usa Parakeet (via ANE) y Whisper.
A partir de la version 1.4.8, Whisper Notes para Mac incluye SenseVoice Small como motor dedicado para transcripcion en chino, japones, coreano y cantones. Reemplaza a Qwen3-ASR y corre en la GPU de Apple via MLX en lugar de la CPU -- procesando un podcast chino de 27 minutos en 13.83 segundos en lugar de 3 minutos con 44 segundos.
Por que reemplazamos Qwen3-ASR
Qwen3-ASR era un modelo solido. Soportaba 30 idiomas mas 22 dialectos chinos, y su precision para chino estaba cerca del estado del arte. Pero tenia un problema que empeoraba con la duracion del audio: la velocidad.
Qwen3 usaba una arquitectura autorregresiva -- el mismo enfoque que Whisper, procesando audio cuadro por cuadro, sin adelantarse nunca. En un podcast chino de 27 minutos, tardaba 73 segundos. Utilizable, pero no la experiencia de resultado instantaneo que Parakeet V3 ofrece para ingles.
El problema mas profundo era nuestra infraestructura. Nuestra integracion de Qwen3 usaba sherpa-onnx, una biblioteca en C con un wrapper de Swift de 2,249 lineas que dirigia todo a traves de los nucleos del CPU. La GPU estaba ociosa mientras el CPU de tu Mac hacia todo el trabajo.
SenseVoice resolvio ambos problemas. Arquitectura no autorregresiva para velocidad. Apple MLX para aceleracion de GPU. El resultado: una mejora de velocidad de 16.2× en el mismo hardware, con un codigo reducido de 2,249 lineas a 288.
El benchmark
Los tres modelos corriendo en el mismo Apple M4 Pro, los mismos archivos de audio, las mismas condiciones. Sin nube. Sin internet. Solo silicio.
| Modelo | 5 min ingles | 27 min chino | Velocidad (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2.91s | 10.10s | 103--161× |
| SenseVoice Small | 5.8s | 13.83s | 52--118× |
| Whisper Large V3 Turbo | 20.92s | 2 min 4s | 13--14× |
| Qwen3-ASR (eliminado) | -- | 73s | 4.7× |
SenseVoice es aproximadamente la mitad de rapido que Parakeet V3 -- aun asi extraordinariamente rapido. Un podcast de 27 minutos se completa en menos de 14 segundos. Presionas transcribir, esperas un respiro, y el texto ya esta ahi.
Compara eso con Whisper a 2 minutos con 4 segundos, o el viejo Qwen3 a 73 segundos. La arquitectura importa mas que la cantidad de parametros.
Benchmark oficial de inferencia del articulo FunAudioLLM: SenseVoice-Small procesa 10s de audio en 70ms (A800 GPU). Whisper-Large-V3 tarda 1,281ms. Eso es una diferencia de 18× en latencia bruta de inferencia.
| Modelo | Tiempo de carga | Memoria | Tamano de descarga |
|---|---|---|---|
| Parakeet V3 | 0.77s | ~800 MB | 465 MB |
| SenseVoice Small | 0.81s | ~700 MB | 827 MB |
| Whisper Small | 1.03s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3.18s | ~1.6 GB | 3 GB |
* Tiempo de carga y memoria medidos en Apple M4 Pro, 32 GB.
SenseVoice carga en menos de un segundo y usa menos memoria que Parakeet. En una Mac de 8 GB, corre comodamente junto con tus otras aplicaciones.
Por que SenseVoice es mas rapido: Arquitectura + Runtime
La diferencia de velocidad entre Qwen3-ASR y SenseVoice viene de dos factores independientes.
Factor 1: Arquitectura del modelo. Qwen3-ASR es autorregresivo -- genera texto token por token, cada uno dependiendo del anterior. SenseVoice usa un codificador no autorregresivo (NAR) que procesa todo el audio en paralelo. Esta diferencia arquitectonica por si sola hace que SenseVoice sea fundamentalmente mas rapido, sin importar en que hardware lo corras.
Factor 2: Runtime. Nuestra integracion de Qwen3-ASR usaba sherpa-onnx, que corria en CPU. SenseVoice corre a traves de Apple MLX, dirigiendo la computacion a la GPU. Podria Qwen3 tambien correr en MLX? Si -- pero seguiria siendo mas lento que SenseVoice porque el cuello de botella autorregresivo esta en la arquitectura, no en el runtime.
| Qwen3-ASR (anterior) | SenseVoice (nuevo) | |
|---|---|---|
| Arquitectura | Autorregresiva (token por token) | No autorregresiva (paralela) |
| Runtime | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 min chino | 224 segundos | 13.83 segundos |
| Aceleracion combinada | linea base | 16.2× mas rapido |
| Codigo | Framework C de 168 MB + 2,249 lineas Swift | 288 lineas Swift Actor |
* Mismo podcast chino de 27 minutos, Apple M4 Pro. La aceleracion de 16.2× combina mejoras tanto arquitectonicas (NAR vs AR) como de runtime (GPU vs CPU).
El codigo tambien se simplifico. La nueva implementacion de SenseVoice es un unico Swift Actor de 288 lineas que se comunica directamente con MLX, reemplazando un framework C de 168 MB. Menos codigo, menos bugs, app mas pequena.
Cinco idiomas, bien hechos
SenseVoice no intenta hacer todo. Maneja cinco idiomas:
| Idioma | SenseVoice-Small | Whisper-Large-V3 | Ganador |
|---|---|---|---|
| Chino (zh-CN) | 10.78% CER | 12.55% CER | SenseVoice (-14%) |
| Cantones (yue) | 7.09% CER | 10.41% CER | SenseVoice (-32%) |
| Japones (ja) | 11.96% CER | 10.34% CER | Whisper (ligero) |
| Coreano (ko) | 8.28% CER | 5.59% CER | Whisper |
| Ingles (en) | 14.71% WER | 9.39% WER | Whisper (usa Parakeet) |
* Benchmark CommonVoice, CER = Character Error Rate, WER = Word Error Rate. Menor es mejor. Fuente: articulo FunAudioLLM (2024). Latencia de inferencia de SenseVoice-Small: 70ms por 10s de audio (A800 GPU), mas de 15× mas rapido que Whisper-Large-V3.
Benchmark CommonVoice: SenseVoice-Small (amarillo) vs Whisper-Small (azul) vs Whisper-Large-V3 (naranja). Menor es mejor. Fuente: articulo FunAudioLLM
Los numeros cuentan una historia honesta. SenseVoice supera a Whisper en precision para chino y cantones por un margen significativo, mientras que Whisper es mas preciso para japones, coreano e ingles. Pero SenseVoice es mas de 15× mas rapido que Whisper-Large-V3. Para la mayoria de los usos reales, la diferencia de velocidad importa mas que unos cuantos puntos porcentuales de precision.
El resultado del cantones merece destacarse por separado. Whisper-Small obtiene 38.97% CER en cantones -- casi inutilizable. Incluso Whisper-Large-V3 solo alcanza 10.41%. SenseVoice llega a 7.09%. Antes de SenseVoice, no habia una buena forma de transcribir cantones localmente en una Mac. Si hablas cantones, este modelo existe para ti.
Transcripcion coreana con SenseVoice: importacion de video con subtitulos con marcas de tiempo
Prueba real: podcast chino de 27 minutos
Transcribimos un episodio de 27 minutos de Thirteen Invitations (十三邀), un podcast de entrevistas chino, con SenseVoice y Whisper Large V3 Turbo en la misma M4 Pro. ElevenLabs Scribe (nube) sirvio como referencia. Ambos modelos locales cometen aproximadamente el mismo numero de errores, pero de diferentes tipos:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| Tiempo | 13.83s | 2 min 4s |
| Errores (muestra de 5 min) | ~15--20 | ~12--15 |
| Peor error | 时差→食堂 (zona horaria→comedor) | 西昌→西藏 (ciudad Xichang→Tibet, 4,000 km de error) |
| Patron de errores | Intercambios de homofonos | Errores geograficos/factuales |
* Comparacion manual contra ElevenLabs Scribe (referencia en la nube, tambien imperfecta). Ambos modelos locales escribieron correctamente "根深蒂固" donde Scribe se equivoco.
Precision comparable. 9× mas rapido. Para la transcripcion de chino en el mundo real, SenseVoice te da un transcrito utilizable antes de que Whisper termine de cargar.
Cuando usar cual modelo
Whisper Notes para Mac ahora incluye cuatro modelos de voz. Cada uno esta optimizado para diferentes escenarios:
| Necesitas... | Usa este modelo | Por que |
|---|---|---|
| Ingles o idiomas europeos, velocidad maxima | Parakeet V3 | 103× tiempo real, menor tasa de error. El predeterminado. |
| Chino, japones, coreano o cantones | SenseVoice Small | 52--118× tiempo real. Unico modelo con soporte para cantones. |
| Cualquiera de 99+ idiomas (arabe, tailandes, ruso, etc.) | Whisper Large V3 Turbo | Mayor soporte de idiomas. Mas lento pero universal. |
| Menor uso de memoria (Macs mas viejas) | Whisper Small | 487 MB de memoria. Bueno para Macs de 8 GB corriendo otras apps. |
Configuracion → Modelo de transcripcion: elige el motor adecuado para tu idioma
El selector de modelos en Configuracion muestra las cuatro opciones con tamanos de descarga, cantidad de idiomas y requisitos de memoria. SenseVoice se descarga en el primer uso (~827 MB) y se queda en tu dispositivo.
Los compromisos
SenseVoice no es un modelo universal. Esto es lo que no puede hacer:
* Solo 5 idiomas. Si necesitas tailandes, ruso, arabe, hindi o cualquiera de los otros 90+ idiomas que soporta Whisper, quedate con Whisper.
* Solo Mac. SenseVoice corre via Apple MLX, que requiere macOS. No esta disponible en iPhone. Los usuarios de iOS tienen Parakeet (para idiomas europeos) y Whisper.
* Peculiaridad con audio silencioso. Durante segmentos muy cortos o muy silenciosos, SenseVoice puede a veces volver a salida en chino sin importar el idioma seleccionado. Configurar el idioma manualmente (en lugar de "Auto") reduce esto.
* Sin streaming. A diferencia del modo de streaming de Whisper, SenseVoice procesa el audio completo despues de la grabacion. Para archivos largos, segmenta automaticamente en los puntos de silencio y muestra resultados progresivamente.
Estas son restricciones arquitectonicas, no bugs. Un modelo entrenado en 5 idiomas hace esos 5 idiomas extremadamente bien. El soporte de Whisper para 99+ idiomas viene con velocidad mas lenta y tasas de error mas altas en cada idioma individual.
Pruebalo
SenseVoice esta disponible en Whisper Notes para Mac v1.4.8 y posteriores. Descargalo desde Configuracion → Modelo de transcripcion → SenseVoice Small (~827 MB). Requiere una Mac con Apple Silicon (M1 o posterior).
Si estas usando Parakeet V3 y dictas principalmente en ingles, no hay necesidad de cambiar. SenseVoice es para cuando necesitas chino, japones, coreano o cantones -- y lo quieres rapido.
Changelog completo: whispernotes.app/changelog
Preguntas o comentarios: mac@whispernotes.app