Parakeet V3 es ahora el motor predeterminado en Mac — 10x más rápido que Whisper

7 de marzo de 2026
·
6 min read
·Whisper Notes Team

A partir de la versión 1.3.2, Whisper Notes para Mac viene con NVIDIA Parakeet TDT 0.6B como motor de voz por defecto. Es 10 veces más rápido que Whisper Large V3 Turbo para inglés, y más preciso. Los modelos Whisper siguen disponibles si necesitas otros idiomas.

Por qué cambiamos el modelo por defecto

Whisper es genial, pero fue diseñado como un modelo de propósito general. Maneja más de 100 idiomas, traduce, genera marcas de tiempo — una navaja suiza. El precio que pagas es la velocidad. Para dictado en inglés, donde lo único que quieres es ver las palabras en pantalla lo antes posible, es demasiado.

Había algo que me molestaba mucho: al usar el dictado con la tecla Fn a nivel de sistema con Whisper, terminar una frase de ~1 minuto significaba esperar 3-5 segundos a que apareciera la transcripción. Esa pausa te rompe el ritmo. Dejas de hablar, esperas, miras el cursor — se pierde toda la magia de escribir con la voz.

Parakeet cambió eso por completo. Es tan rápido que la transcripción aparece en el instante en que dejas de hablar. Hablas, y las palabras simplemente están ahí. Una vez que experimentas esa sensación — ese flujo continuo, sin esperas — es muy difícil volver a Whisper.

¿Qué tan rápido es Parakeet V3?

Los números hablan por sí solos. Aquí va una comparación real con un archivo de audio de 35 minutos en el mismo Mac:

Modelo Audio de 35 min
Whisper Large V3 Turbo 3 minutos
Parakeet TDT 0.6B v3 18 segundos

10 veces más rápido. Y como el modelo es más pequeño (600M vs 800M parámetros), consume menos memoria y menos batería.

Qué hace a Parakeet v3 tan rápido

Whisper escucha el audio como si leyeras un libro en voz alta — palabra por palabra, fotograma por fotograma, sin saltarse nada. Incluso durante los silencios, sigue procesando, sigue adivinando qué viene después. Exhaustivo, sí, pero lento.

Parakeet tiene un enfoque radicalmente distinto. Comprime la señal de audio 8 veces antes de procesarla, así que el modelo solo ve lo que importa. Luego, en vez de recorrer cada fotograma uno a uno, predice no solo qué palabra dijiste, sino cuánto dura esa palabra — y salta hacia adelante. ¿Silencio? Se lo salta. ¿Una vocal larga? Una sola predicción en lugar de docenas.

El resultado es un modelo que procesa el habla como lo hace tu cerebro — centrándose en las palabras e ignorando los huecos. Por eso es 10 veces más rápido, con menos parámetros y mayor precisión.

Benchmarks: Parakeet v3 vs Whisper

Comparación de tasa de error por palabra: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T en múltiples conjuntos de datos de referencia

Parakeet v3 iguala o supera a modelos 2-4 veces más grandes en los benchmarks FLEURS, CoVoST y MLS

En el Open ASR Leaderboard de Hugging Face, Parakeet v3 lidera la tabla con solo 600M parámetros — menos de la mitad de los 1.55B de Whisper Large V3:

Modelo Parámetros WER medio Velocidad (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

Menor WER = menos errores. Mayor RTFx = más rápido. Parakeet gana en ambos. Con 600M parámetros, es también el modelo más pequeño de la lista — lo que significa que funciona de maravilla en Apple Silicon con un consumo mínimo de memoria y batería.

Se acabaron las alucinaciones

Si has usado Whisper para dictado, seguramente lo has visto alucinar durante los silencios — repitiendo frases, inventando palabras o soltando un "Subtitles by Amara.org" de la nada. Esto pasa porque el decodificador autoregresivo de Whisper siempre espera generar texto, incluso cuando no hay nada que transcribir.

NVIDIA entrenó Parakeet con 36.000 horas de audio puramente no verbal (ruido de fondo, toses, silencio) emparejado con cadenas vacías. El modelo aprendió cómo suena el silencio y se queda callado. Para el dictado a nivel de sistema en modo "siempre activo", esto es revolucionario — no más texto basura cuando haces una pausa para pensar.

Idiomas que soporta Parakeet

Parakeet v3 soporta 25 idiomas: búlgaro, croata, checo, danés, neerlandés, inglés, estonio, finés, francés, alemán, griego, húngaro, italiano, letón, lituano, maltés, polaco, portugués, rumano, ruso, eslovaco, esloveno, español, sueco y ucraniano.

Eso cubre casi toda Europa, pero no incluye chino, japonés, coreano, árabe ni hindi. Por eso mantuvimos los modelos Whisper como opciones descargables. Si dictas en japonés o mandarín, elige Whisper Large V3 Turbo desde el selector de modelos. Para inglés e idiomas europeos, Parakeet v3 es simplemente el mejor motor.

Selector de modelos de Whisper Notes para Mac mostrando Parakeet V3 como predeterminado, con Whisper Small y Whisper Large V3 Turbo como opciones descargables

Selector de modelos: Parakeet V3 (predeterminado), Whisper Small y Whisper Large V3 Turbo — todos ejecutándose en local

Selector de modelos en Whisper Notes

Abre Ajustes para cambiar entre modelos:

  • Parakeet V3 (predeterminado) — El más rápido, ideal para inglés e idiomas europeos
  • Whisper Small — Ligero, más de 100 idiomas
  • Whisper Large V3 Turbo — El modelo multilingüe más preciso

Todos los modelos se ejecutan 100% en local en tu Mac. Sin internet, sin nube, ningún dato sale de tu dispositivo.

Pruébalo

Parakeet v3 ya está disponible en la versión para Mac — solo descarga el último DMG. Si los comentarios son positivos, llevaremos Parakeet a la versión para iOS en una futura actualización.

¿Preguntas o comentarios? Escríbenos a support@whispernotes.app.