La transcripción Whisper consiste en convertir voz en texto con Whisper de OpenAI — un modelo de IA de código abierto que puedes ejecutar en la nube, en un servidor o completamente en tu propio dispositivo. Esta guía explica cómo funciona Whisper, qué tamaño de modelo elegir, qué tan preciso es realmente y la forma más rápida de usarlo sin conexión en una Mac o iPhone.
¿Qué es Whisper exactamente?
Whisper es un modelo de reconocimiento automático del habla (ASR) que OpenAI publicó en septiembre de 2022 bajo licencia MIT. Es un transformer codificador-decodificador entrenado con más de 680,000 horas de audio multilingüe, capaz de transcribir alrededor de 100 idiomas y de traducir al inglés.
Lo que de verdad te importa: los pesos del modelo son abiertos. A diferencia de las API de voz de Google o Amazon, Whisper no tiene que ejecutarse en el servidor de alguien más. Existe todo un ecosistema para correrlo en local — whisper.cpp, faster-whisper y apps nativas como Whisper Notes. Eso es lo que hace posible una transcripción realmente sin conexión y privada.
Tamaños del modelo Whisper: cuál usar
Whisper existe en seis tamaños principales. Más grande significa más preciso y más lento:
| Modelo | Parámetros | Velocidad | Ideal para |
|---|---|---|---|
| tiny | 39M | El más rápido | Borradores rápidos, hardware modesto |
| base | 74M | Muy rápido | Audio sencillo y limpio |
| small | 244M | Rápido | Buen balance velocidad/precisión en el celular |
| medium | 769M | Moderada | Rara vez la opción correcta hoy |
| large-v3 | 1.55B | El más lento | Máxima precisión, audio difícil |
| large-v3-turbo | 809M | ~5x más rápido que large-v3 | La opción por defecto en 2026 |
Para casi todos, la respuesta es large-v3-turbo: conserva el codificador de large-v3 pero reduce las capas del decodificador de 32 a 4, con una precisión casi idéntica por una fracción del cómputo. Lo analizamos a fondo en Whisper Large V3 Turbo vs V3.
¿Qué tan precisa es la transcripción Whisper?
Con audio limpio en inglés, los modelos grandes alcanzan una tasa de error de palabras (WER) de aproximadamente 5-8% — comparable a una transcripción humana profesional para la mayoría de los usos prácticos. La precisión baja con ruido de fondo, acentos marcados, voces encimadas e idiomas con pocos datos de entrenamiento.
La falla más famosa de Whisper: las alucinaciones durante los silencios. Su decodificador autorregresivo a veces inventa frases repetidas o créditos de subtítulos cuando nadie está hablando. Los modelos más recientes lo corrigen — Parakeet V3 de NVIDIA fue entrenado expresamente con audio sin habla y no produce ninguna alucinación en nuestras pruebas (benchmark completo Parakeet V3 vs Whisper).
Para chino, japonés, coreano y cantonés, un modelo especializado supera a Whisper tanto en velocidad como en puntuación: consulta SenseVoice vs Whisper para idiomas CJK.
5 formas de hacer transcripción Whisper
| Método | Costo | Privacidad | Configuración |
|---|---|---|---|
| API de OpenAI | Pago por minuto de audio | El audio se sube | Clave de API + código |
| openai-whisper (Python de referencia) | Gratis | 100% local | Entorno Python, GPU recomendada |
| whisper.cpp / faster-whisper | Gratis | 100% local | Línea de comandos |
| App nativa (Whisper Notes) | $6.99 una sola vez, prueba gratis en Mac | 100% en el dispositivo | Ninguna |
| Demos web | Niveles gratuitos | El audio se sube | Ninguna |
La regla general: si vives en la terminal, faster-whisper es excelente. Si estás construyendo un producto, la API tiene sentido ($0.006 por minuto — pensada para desarrolladores). Si solo quieres transcribir tus grabaciones de forma privada sin tocar Python, usa una app nativa — esa es toda la razón de existir de las apps de Whisper para Mac.
¿Estás comparando herramientas sin conexión en general — incluidas opciones para Windows y Android? Lee nuestra guía completa de voz a texto sin conexión.
Whisper frente a los nuevos modelos locales (2026)
Whisper inauguró la era de la transcripción local, pero ya no está solo. Velocidades medidas en una Mac M4 Pro:
| Modelo | Idiomas | Velocidad | Punto fuerte |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | ~12x tiempo real | La cobertura de idiomas más amplia |
| Parakeet V3 | 25 (europeos, incluido el español) | ~100x tiempo real | 6.32% de WER, sin alucinaciones en los silencios |
| SenseVoice Small | zh, ja, ko, yue, en | ~52x tiempo real | El mejor para chino, japonés y coreano |
Los tres funcionan en local dentro de Whisper Notes, y puedes cambiar de modelo en cada grabación. Los benchmarks comparativos están en nuestra página de comparación de modelos Whisper.
Cómo hacer transcripción Whisper sin conexión en Mac y iPhone
Sin línea de comandos, sin Python, sin nube:
- Descarga Whisper Notes para Mac (prueba gratis) o para iPhone ($6.99 una sola vez).
- Elige un modelo: Whisper Large V3 Turbo para la cobertura de idiomas más amplia, Parakeet V3 para máxima velocidad en español y otros idiomas europeos, SenseVoice para idiomas CJK. Se descarga una vez y funciona para siempre sin conexión.
- Graba directamente, dicta en cualquier app manteniendo presionada la tecla Fn, o arrastra archivos de audio y video (MP3, WAV, M4A, MP4).
- El texto va apareciendo mientras se procesa. Exporta como TXT o SRT.
¿Escéptico con eso de "sin conexión"? Activa primero el modo avión. La transcripción corre a toda velocidad — no se sube nada, nunca.
¿Qué tan precisa es la transcripción Whisper en español? ¿Qué modelo elegir?
Muy precisa — si eliges el modelo adecuado. Para audio en español, la recomendación clara es Parakeet V3: el modelo por defecto de Whisper Notes, que cubre 25 idiomas europeos incluido el español, transcribe en la clase del 6.32% de WER y corre unas 10x más rápido que Whisper. Si tu grabación incluye idiomas que Parakeet no cubre, cambia a Whisper Large V3 Turbo (más de 100 idiomas, ~1.5 GB) — puedes elegir el modelo en cada grabación, todo completamente en tu dispositivo.
Preguntas frecuentes
¿La transcripción Whisper es gratis?
El modelo en sí es gratuito y de código abierto (licencia MIT). Correrlo con herramientas de línea de comandos como whisper.cpp no cuesta nada, pero requiere configuración. La API de OpenAI cobra $0.006 por minuto de audio. Las apps nativas empaquetan los modelos por un precio pequeño — Whisper Notes cuesta $6.99 una sola vez, con prueba gratuita en Mac (10,000 palabras).
¿Puede la transcripción Whisper funcionar sin conexión?
Sí — ese es precisamente el punto de los pesos abiertos. Una vez que el archivo del modelo está en tu dispositivo, no necesitas internet. Whisper Notes ejecuta Whisper Large V3 Turbo en Apple Silicon mediante CoreML/Metal, totalmente sin conexión. Puedes comprobarlo con el modo avión.
¿Qué modelo de Whisper es el más preciso?
large-v3 tiene la mejor precisión bruta. large-v3-turbo lo iguala con una diferencia de una fracción de punto porcentual de WER, corriendo unas 5x más rápido — por eso es hoy la opción por defecto en la mayoría de las herramientas.
¿Whisper es compatible con mi idioma?
Whisper cubre alrededor de 100 idiomas, con los mejores resultados en los que tienen más datos (inglés, español, alemán, francés, etc.). Para chino, japonés, coreano y cantonés, SenseVoice ofrece mejor puntuación y una velocidad mucho mayor en Apple Silicon.
¿Existe una app de transcripción Whisper para iPhone?
Sí. Whisper Notes ejecuta modelos Whisper optimizados para el Neural Engine del iPhone (iPhone 12 y posteriores) — graba, importa desde Notas de Voz o Archivos y transcribe todo en el dispositivo por $6.99, sin suscripción.