Parakeet V3 vs Whisper: 10x más rápido, mayor precisión (Benchmark)

TL;DR

	Parakeet V3	Comparación con Whisper
Velocidad	10× vs Turbo; ~23× vs V3	Referencia: Turbo / Large V3
Idiomas compatibles	25	100+
Tasa de error en inglés (WER)	6.32%	Turbo 7.83%; V3 7.44%
Tasa de error prom. 25 idiomas (WER)	12.0%	12.6%
Alucinaciones	Prácticamente ninguna en silencio en nuestras pruebas	Pueden aparecer en silencio
Ideal para	Inglés y europeos	Asiáticos, árabe, 100+

* Velocidad: el mismo audio de 35 minutos en Apple Silicon. WER inglés: Open ASR Leaderboard de Hugging Face. Promedio de 25 idiomas: benchmark FLEURS. El comportamiento en silencio es una observación de nuestro producto, no una garantía de cero errores.

A partir de la versión 1.3.2 (descarga directa / DMG), Whisper Notes para Mac viene con NVIDIA Parakeet TDT 0.6B como motor de voz por defecto. Es 10 veces más rápido que Whisper Large V3 Turbo para inglés, y más preciso. Los modelos Whisper siguen disponibles si necesitas otros idiomas.

Por qué cambiamos el modelo por defecto

Whisper es genial, pero fue diseñado como un modelo de propósito general. Maneja más de 100 idiomas, traduce, genera marcas de tiempo — una navaja suiza. El precio que pagas es la velocidad. Para dictado en inglés, donde lo único que quieres es ver las palabras en pantalla lo antes posible, es demasiado.

Había algo que me molestaba mucho: al usar el dictado con la tecla Fn a nivel de sistema con Whisper, terminar una frase de ~1 minuto significaba esperar 3-5 segundos a que apareciera la transcripción. Esa pausa te rompe el ritmo. Dejas de hablar, esperas, miras el cursor — se pierde toda la magia de escribir con la voz.

Parakeet cambió eso por completo. Es tan rápido que la transcripción aparece en el instante en que dejas de hablar. Hablas, y las palabras simplemente están ahí. Una vez que experimentas esa sensación — ese flujo continuo, sin esperas — es muy difícil volver a Whisper.

¿Qué tan rápido es Parakeet V3?

Los números hablan por sí solos. Aquí va una comparación real con un archivo de audio de 35 minutos en el mismo Mac:

Modelo	Audio de 35 min
Whisper Large V3 Turbo	3 minutos
Parakeet TDT 0.6B v3	18 segundos

10 veces más rápido. Y como el modelo es más pequeño (600M vs 800M parámetros), consume menos memoria y menos batería.

Qué hace a Parakeet v3 tan rápido

Whisper escucha el audio como si leyeras un libro en voz alta — palabra por palabra, fotograma por fotograma, sin saltarse nada. Incluso durante los silencios, sigue procesando, sigue adivinando qué viene después. Exhaustivo, sí, pero lento.

Parakeet tiene un enfoque radicalmente distinto. Comprime la señal de audio 8 veces antes de procesarla, así que el modelo solo ve lo que importa. Luego, en vez de recorrer cada fotograma uno a uno, predice no solo qué palabra dijiste, sino cuánto dura esa palabra — y salta hacia adelante. ¿Silencio? Se lo salta. ¿Una vocal larga? Una sola predicción en lugar de docenas.

El resultado es un modelo que procesa el habla como lo hace tu cerebro — centrándose en las palabras e ignorando los huecos. Por eso es 10 veces más rápido, con menos parámetros y mayor precisión.

Benchmarks: Parakeet v3 vs Whisper

Comparación de tasa de error por palabra: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T en múltiples conjuntos de datos de referencia

Parakeet v3 iguala o supera a modelos 2-4 veces más grandes en los benchmarks FLEURS, CoVoST y MLS

En el Open ASR Leaderboard de Hugging Face, Parakeet v3 lidera la tabla con solo 600M parámetros — menos de la mitad de los 1.55B de Whisper Large V3:

Modelo	Parámetros	WER medio	Velocidad (RTFx)
Parakeet TDT 0.6B v3	0.6B	6.32%	3,333x
Canary 1B v2	1.0B	7.15%	749x
Whisper Large V3	1.55B	7.44%	146x
Whisper Large V3 Turbo	0.8B	7.83%	350x

Menor WER = menos errores. Mayor RTFx = más rápido. Parakeet gana en ambos. Con 600M parámetros, es también el modelo más pequeño de la lista — lo que significa que funciona de maravilla en Apple Silicon con un consumo mínimo de memoria y batería.

WER multilingüe: los 25 idiomas

La tabla de arriba cubre solo inglés. Aquí está la imagen completa — cómo los tres modelos disponibles en Whisper Notes se comparan en los 25 idiomas que soporta Parakeet, medidos con el benchmark FLEURS. Menor WER = menos errores de transcripción. El mejor valor entre Large V3 y Parakeet se resalta por fila:

Idioma	Whisper Small	Whisper Large V3	Parakeet V3
Búlgaro	37.3	12.9	12.6
Croata	33.4	11.1	12.5
Checo	37.6	11.3	11.0
Danés	32.8	12.6	18.4
Neerlandés	16.4	5.6	7.5
Inglés	6.1	4.3	4.9
Estonio	51.3	19.1	17.7
Finés	24.0	7.7	13.2
Francés	15.0	6.3	5.2
Alemán	10.2	4.3	5.0
Griego	30.8	27.0	20.7
Húngaro	38.9	14.1	15.7
Italiano	9.8	2.3	3.0
Letón	53.2	18.3	22.8
Lituano	65.6	22.3	20.4
Maltés	92.2	68.9	20.5
Polaco	14.7	4.7	7.3
Portugués	7.3	3.7	4.8
Rumano	29.8	8.2	12.4
Ruso	11.4	4.2	5.5
Eslovaco	33.3	8.4	8.8
Esloveno	49.3	19.9	24.0
Español	5.6	3.1	3.5
Sueco	20.8	7.9	15.1
Ucraniano	19.3	6.5	6.8
Promedio	29.8	12.6	12.0

WER (%) en FLEURS. Datos de Whisper Small de Radford et al.; datos de Large V3 y Parakeet V3 del artículo NVIDIA Canary-1B-v2.

Whisper Large V3 se pone por delante en la mayoría de los idiomas tomados uno a uno, pero Parakeet V3 queda muy cerca en el promedio (12,0 % frente a 12,6 %), gana en griego, francés, estonio y maltés, y recorta en torno a un 60 % la tasa media de error de Whisper Small. La ventaja práctica está en la combinación: precisión multilingüe de nivel Large V3 a aproximadamente 23× la velocidad, una huella de ejecución más pequeña y una gestión del silencio mucho más fiable en nuestras pruebas de dictado.

Por qué alucina menos en los silencios

Si has usado Whisper para dictado, seguramente lo has visto alucinar durante los silencios — repitiendo frases, inventando palabras o soltando un "Subtitles by Amara.org" de la nada. Esto pasa porque el decodificador autoregresivo de Whisper siempre espera generar texto, incluso cuando no hay nada que transcribir.

La arquitectura de transductor de Parakeet puede emitir salidas en blanco en lugar de forzar un token de texto. En nuestras pruebas de dictado a nivel de sistema, eso hace que sea mucho menos propenso que Whisper a rellenar una pausa con texto repetido o sin relación. Sigue siendo un modelo de voz, así que la afirmación honesta es "menos propenso", no "nunca".

Idiomas que soporta Parakeet

Parakeet v3 soporta 25 idiomas: búlgaro, croata, checo, danés, neerlandés, inglés, estonio, finés, francés, alemán, griego, húngaro, italiano, letón, lituano, maltés, polaco, portugués, rumano, ruso, eslovaco, esloveno, español, sueco y ucraniano.

Eso cubre casi toda Europa, pero no incluye chino, japonés, coreano, árabe ni hindi. Para chino, japonés, coreano y cantonés, elige SenseVoice; para árabe, hindi y otros idiomas fuera del conjunto de Parakeet, usa Whisper Large V3 Turbo.

Selector de modelos de Whisper Notes para Mac mostrando Parakeet V3, SenseVoice Small, Whisper Small y Whisper Large V3 Turbo

Selector de modelos: Parakeet V3 (predeterminado), SenseVoice Small, Whisper Small y Whisper Large V3 Turbo — todos ejecutándose en local

Selector de modelos en Whisper Notes

Abre Ajustes para cambiar entre modelos:

Parakeet V3 (predeterminado) — El más rápido, ideal para inglés e idiomas europeos
SenseVoice Small — El más rápido para chino, japonés, coreano y cantonés
Whisper Small — Ligero, más de 100 idiomas
Whisper Large V3 Turbo — Amplia cobertura de más de 100 idiomas

Todos los modelos se ejecutan 100% en local en tu Mac. Sin internet, sin nube, ningún dato sale de tu dispositivo.

¿Y Parakeet V2?

Si usaste V2 antes, quizá te preguntes cómo se compara. V2 era un modelo solo para inglés — y su precisión en inglés es ligeramente mejor que la de V3 (WER 6,05 % vs 6,32 %). V3 cambia esa pequeña diferencia por soporte de 25 idiomas. Ambos son mucho más precisos que Whisper.

	Parakeet V2	Parakeet V3	Whisper Large V3
WER inglés	6.05%	6.32%	7.44%
Idiomas	Solo inglés	25	100+

En resumen: si solo necesitas inglés, tanto V2 como V3 son excelentes. V3 es el predeterminado en Whisper Notes porque el soporte multilingüe importa a la mayoría de usuarios — y la diferencia en precisión del inglés es insignificante.

¿Y WhisperKit?

WhisperKit es el framework de código abierto en Swift de Argmax para ejecutar modelos Whisper en dispositivos Apple. Es una herramienta para desarrolladores, no una app para el usuario final — y ejecuta Whisper, no Parakeet (que es la familia de modelos de NVIDIA). Si quieres transcripción en el dispositivo al estilo WhisperKit sin escribir Swift tú mismo, Whisper Notes empaqueta la misma idea como una app lista para usar: Parakeet V3, Whisper Large V3 Turbo y SenseVoice, todos ejecutándose en local en Mac y iPhone.

¿Estás comparando todas las opciones locales? Todos los modelos de voz a texto en el dispositivo — las variantes de Whisper, Parakeet V3, SenseVoice y Voxtral — están comparados lado a lado en nuestra página de comparación de modelos Whisper. ¿Es tu primer contacto con Whisper? Empieza por la guía de transcripción con Whisper — qué es el modelo, todas las formas de ejecutarlo y lo que cuesta.

Preguntas frecuentes

¿Es Parakeet V3 mejor que Whisper?

Para inglés e idiomas europeos, muchas veces sí. En nuestra prueba de 35 minutos, Parakeet fue 10× más rápido que Whisper Turbo, y el Open ASR Leaderboard registra un WER en inglés del 6,32 % para Parakeet frente al 7,83 % de Turbo. Whisper sigue cubriendo muchos más idiomas: más de 100 frente a los 25 de Parakeet.

¿Qué idiomas soporta Parakeet V3?

Parakeet V3 soporta 25 idiomas: búlgaro, croata, checo, danés, neerlandés, inglés, estonio, finés, francés, alemán, griego, húngaro, italiano, letón, lituano, maltés, polaco, portugués, rumano, ruso, eslovaco, esloveno, español, sueco y ucraniano.

¿Puedo ejecutar Parakeet V3 en un Mac?

Sí. Whisper Notes para Mac trae Parakeet V3 como motor predeterminado. Se ejecuta 100 % en local en Apple Silicon — sin internet, sin nube, ningún dato sale de tu dispositivo. Descarga el DMG de prueba gratuita para probarlo.

¿Alucina Parakeet V3 como Whisper?

Mucho menos a menudo en nuestras pruebas con silencio, pero ningún modelo de voz merece un "nunca". Parakeet puede emitir salidas en blanco durante las pausas, mientras que el decodificador autoregresivo de Whisper es más propenso a frases repetidas o texto sin relación cuando la entrada es silencio.

Parakeet V2 vs V3 — ¿cuál debería usar?

Parakeet V2 es solo para inglés, con una precisión en inglés ligeramente mejor (WER de 6,05 % frente a 6,32 %). V3 cambia ese margen mínimo por 25 idiomas europeos y es el predeterminado en Whisper Notes. A menos que transcribas exclusivamente en inglés y persigas la última fracción de punto, usa V3.

¿Soporta Parakeet V3 japonés, chino o coreano?

No — sus 25 idiomas son todos europeos. Para chino, japonés, coreano o cantonés, Whisper Notes incluye SenseVoice (52 veces más rápido que Whisper para CJK) y los modelos Whisper. Todos funcionan sin conexión tanto en Mac como en iPhone.

¿Cuánto ocupa Parakeet V3?

600 millones de parámetros — una descarga de 465 MB que usa alrededor de 800 MB de memoria mientras transcribe en nuestra versión para Mac. Whisper Large V3 Turbo es una descarga de alrededor de 1,6 GB y usa aproximadamente 1,6 GB de memoria en la misma app.

Pruébalo

Parakeet v3 ya está disponible en la versión para Mac — solo descarga el último DMG. (Actualización: Parakeet ya está disponible en la última versión de iOS.)

¿Preguntas o comentarios? Escríbenos a support@whispernotes.app.