Transcripción Whisper: modelos, velocidad y cómo usarla sin conexión (guía 2026)

La transcripción Whisper consiste en convertir voz en texto con Whisper de OpenAI — un modelo de IA de código abierto que puedes ejecutar en la nube, en un servidor o completamente en tu propio dispositivo. Esta guía explica cómo funciona Whisper, qué tamaño de modelo elegir, qué precisión tiene realmente y la forma más rápida de usarlo sin conexión en un Mac o iPhone.

¿Qué es Whisper exactamente?

Whisper es un modelo de reconocimiento automático del habla (ASR) que OpenAI publicó en septiembre de 2022 bajo licencia MIT. Es un transformer codificador-decodificador entrenado con más de 680.000 horas de audio multilingüe, capaz de transcribir unas 100 lenguas y de traducir al inglés.

Lo que de verdad te importa: los pesos del modelo son abiertos. A diferencia de las API de voz de Google o Amazon, Whisper no tiene por qué ejecutarse en el servidor de otro. Existe todo un ecosistema para ejecutarlo en local — whisper.cpp, faster-whisper y apps nativas como Whisper Notes. Eso es lo que hace posible una transcripción realmente sin conexión y privada.

Tamaños del modelo Whisper: cuál usar

Whisper existe en seis tamaños principales. Más grande significa más preciso y más lento:

Modelo	Parámetros	Velocidad	Ideal para
tiny	39M	El más rápido	Borradores rápidos, hardware modesto
base	74M	Muy rápido	Audio sencillo y limpio
small	244M	Rápido	Buen equilibrio velocidad/precisión en móvil
medium	769M	Moderada	Rara vez la opción correcta hoy
large-v3	1,55B	El más lento	Máxima precisión, audio difícil
large-v3-turbo	809M	~5x más rápido que large-v3	La opción por defecto en 2026

Para casi todo el mundo, la respuesta es large-v3-turbo: conserva el codificador de large-v3 pero reduce las capas del decodificador de 32 a 4, con una precisión casi idéntica por una fracción del cómputo. Lo analizamos a fondo en Whisper Large V3 Turbo vs V3.

¿Qué precisión tiene la transcripción Whisper?

Con audio limpio en inglés, los modelos grandes alcanzan una tasa de error de palabras (WER) de aproximadamente el 5-8 % — comparable a una transcripción humana profesional para la mayoría de los usos prácticos. La precisión baja con ruido de fondo, acentos marcados, voces solapadas y lenguas con pocos datos de entrenamiento.

El fallo más famoso de Whisper: las alucinaciones durante los silencios. Su decodificador autorregresivo a veces inventa frases repetidas o créditos de subtítulos cuando nadie habla. Los modelos más recientes lo corrigen — Parakeet V3 de NVIDIA fue entrenado expresamente con audio sin habla y no produce ninguna alucinación en nuestras pruebas (benchmark completo Parakeet V3 vs Whisper).

Para chino, japonés, coreano y cantonés, un modelo especializado supera a Whisper tanto en velocidad como en puntuación: consulta SenseVoice vs Whisper para lenguas CJK.

5 formas de hacer transcripción Whisper

Método	Coste	Privacidad	Configuración
API de OpenAI	Pago por minuto de audio	El audio se sube	Clave de API + código
openai-whisper (Python de referencia)	Gratis	100 % local	Entorno Python, GPU recomendada
whisper.cpp / faster-whisper	Gratis	100 % local	Línea de comandos
App nativa (Whisper Notes)	$6.99 una sola vez, prueba gratis en Mac	100 % en el dispositivo	Ninguna
Demos web	Niveles gratuitos	El audio se sube	Ninguna

La regla general: si vives en la terminal, faster-whisper es excelente. Si estás construyendo un producto, la API tiene sentido ($0.006 por minuto — pensada para desarrolladores). Si solo quieres transcribir tus grabaciones de forma privada sin tocar Python, usa una app nativa — esa es toda la razón de existir de las apps de Whisper para Mac.

¿Comparas herramientas sin conexión en general — incluidas opciones para Windows y Android? Lee nuestra guía completa de voz a texto sin conexión.

Whisper frente a los nuevos modelos locales (2026)

Whisper inauguró la era de la transcripción local, pero ya no está solo. Velocidades medidas en un Mac M4 Pro:

Modelo	Idiomas	Velocidad	Punto fuerte
Whisper Large V3 Turbo	100+	~12x tiempo real	La cobertura de idiomas más amplia
Parakeet V3	25 (europeos, incluido el español)	~100x tiempo real	6,32 % de WER, sin alucinaciones en los silencios
SenseVoice Small	zh, ja, ko, yue, en	~52x tiempo real	El mejor para chino, japonés y coreano

Los tres funcionan en local dentro de Whisper Notes, y puedes cambiar de modelo en cada grabación. Los benchmarks comparativos están en nuestra página de comparación de modelos Whisper.

Cómo hacer transcripción Whisper sin conexión en Mac y iPhone

Sin línea de comandos, sin Python, sin nube:

Descarga Whisper Notes para Mac (prueba gratis) o para iPhone ($6.99 una sola vez).
Elige un modelo: Whisper Large V3 Turbo para la cobertura de idiomas más amplia, Parakeet V3 para máxima velocidad en español y otras lenguas europeas, SenseVoice para lenguas CJK. Se descarga una vez y funciona para siempre sin conexión.
Graba directamente, dicta en cualquier app manteniendo pulsada la tecla Fn, o arrastra archivos de audio y vídeo (MP3, WAV, M4A, MP4).
El texto va apareciendo mientras se procesa. Exporta como TXT o SRT.

¿Escéptico con lo de "sin conexión"? Activa primero el modo avión. La transcripción funciona a plena velocidad — no se sube nada, nunca.

¿Qué precisión tiene la transcripción Whisper en español? ¿Qué modelo elegir?

Muy alta — si eliges el modelo adecuado. Para audio en español, la recomendación clara es Parakeet V3: el modelo por defecto de Whisper Notes, que cubre 25 lenguas europeas incluido el español, transcribe en la clase del 6,32 % de WER y funciona unas 10x más rápido que Whisper. Si tu grabación incluye idiomas que Parakeet no cubre, cambia a Whisper Large V3 Turbo (más de 100 idiomas, ~1,5 GB) — puedes elegir el modelo en cada grabación, todo íntegramente en tu dispositivo.

Preguntas frecuentes

¿La transcripción Whisper es gratis?

El modelo en sí es gratuito y de código abierto (licencia MIT). Ejecutarlo con herramientas de línea de comandos como whisper.cpp no cuesta nada, pero requiere configuración. La API de OpenAI cobra $0.006 por minuto de audio. Las apps nativas empaquetan los modelos por un precio pequeño — Whisper Notes cuesta $6.99 una sola vez, con prueba gratuita en Mac (10.000 palabras).

¿Puede la transcripción Whisper funcionar sin conexión?

Sí — ese es precisamente el sentido de los pesos abiertos. Una vez que el archivo del modelo está en tu dispositivo, no hace falta internet. Whisper Notes ejecuta Whisper Large V3 Turbo en Apple Silicon mediante CoreML/Metal, totalmente sin conexión. Puedes comprobarlo con el modo avión.

¿Qué modelo de Whisper es el más preciso?

large-v3 tiene la mejor precisión bruta. large-v3-turbo lo iguala con una diferencia de una fracción de punto porcentual de WER, funcionando unas 5x más rápido — por eso es hoy la opción por defecto en la mayoría de las herramientas.

¿Whisper es compatible con mi idioma?

Whisper cubre unas 100 lenguas, con los mejores resultados en las que tienen más datos (inglés, español, alemán, francés, etc.). Para chino, japonés, coreano y cantonés, SenseVoice ofrece mejor puntuación y una velocidad mucho mayor en Apple Silicon.

¿Existe una app de transcripción Whisper para iPhone?

Sí. Whisper Notes ejecuta modelos Whisper optimizados para el Neural Engine del iPhone (iPhone 12 y posteriores) — graba, importa desde Notas de Voz o Archivos y transcribe todo en el dispositivo por $6.99, sin suscripción.

Descargar para iOS

Prueba gratis en Mac