Transcripción Whisper: modelos, velocidad y cómo usarla sin conexión (guía 2026)

2 de julio de 2026
·
9 min read
·Whisper Notes Team

La transcripción Whisper consiste en convertir voz en texto con Whisper de OpenAI — un modelo de IA de código abierto que puedes ejecutar en la nube, en un servidor o completamente en tu propio dispositivo. Esta guía explica cómo funciona Whisper, qué tamaño de modelo elegir, qué precisión tiene realmente y la forma más rápida de usarlo sin conexión en un Mac o iPhone.

¿Qué es Whisper exactamente?

Whisper es un modelo de reconocimiento automático del habla (ASR) que OpenAI publicó en septiembre de 2022 bajo licencia MIT. Es un transformer codificador-decodificador entrenado con más de 680.000 horas de audio multilingüe, capaz de transcribir unas 100 lenguas y de traducir al inglés.

Lo que de verdad te importa: los pesos del modelo son abiertos. A diferencia de las API de voz de Google o Amazon, Whisper no tiene por qué ejecutarse en el servidor de otro. Existe todo un ecosistema para ejecutarlo en local — whisper.cpp, faster-whisper y apps nativas como Whisper Notes. Eso es lo que hace posible una transcripción realmente sin conexión y privada.

Tamaños del modelo Whisper: cuál usar

Whisper existe en seis tamaños principales. Más grande significa más preciso y más lento:

Modelo Parámetros Velocidad Ideal para
tiny 39M El más rápido Borradores rápidos, hardware modesto
base 74M Muy rápido Audio sencillo y limpio
small 244M Rápido Buen equilibrio velocidad/precisión en móvil
medium 769M Moderada Rara vez la opción correcta hoy
large-v3 1,55B El más lento Máxima precisión, audio difícil
large-v3-turbo 809M ~5x más rápido que large-v3 La opción por defecto en 2026

Para casi todo el mundo, la respuesta es large-v3-turbo: conserva el codificador de large-v3 pero reduce las capas del decodificador de 32 a 4, con una precisión casi idéntica por una fracción del cómputo. Lo analizamos a fondo en Whisper Large V3 Turbo vs V3.

¿Qué precisión tiene la transcripción Whisper?

Con audio limpio en inglés, los modelos grandes alcanzan una tasa de error de palabras (WER) de aproximadamente el 5-8 % — comparable a una transcripción humana profesional para la mayoría de los usos prácticos. La precisión baja con ruido de fondo, acentos marcados, voces solapadas y lenguas con pocos datos de entrenamiento.

El fallo más famoso de Whisper: las alucinaciones durante los silencios. Su decodificador autorregresivo a veces inventa frases repetidas o créditos de subtítulos cuando nadie habla. Los modelos más recientes lo corrigen — Parakeet V3 de NVIDIA fue entrenado expresamente con audio sin habla y no produce ninguna alucinación en nuestras pruebas (benchmark completo Parakeet V3 vs Whisper).

Para chino, japonés, coreano y cantonés, un modelo especializado supera a Whisper tanto en velocidad como en puntuación: consulta SenseVoice vs Whisper para lenguas CJK.

5 formas de hacer transcripción Whisper

Método Coste Privacidad Configuración
API de OpenAI Pago por minuto de audio El audio se sube Clave de API + código
openai-whisper (Python de referencia) Gratis 100 % local Entorno Python, GPU recomendada
whisper.cpp / faster-whisper Gratis 100 % local Línea de comandos
App nativa (Whisper Notes) $6.99 una sola vez, prueba gratis en Mac 100 % en el dispositivo Ninguna
Demos web Niveles gratuitos El audio se sube Ninguna

La regla general: si vives en la terminal, faster-whisper es excelente. Si estás construyendo un producto, la API tiene sentido ($0.006 por minuto — pensada para desarrolladores). Si solo quieres transcribir tus grabaciones de forma privada sin tocar Python, usa una app nativa — esa es toda la razón de existir de las apps de Whisper para Mac.

¿Comparas herramientas sin conexión en general — incluidas opciones para Windows y Android? Lee nuestra guía completa de voz a texto sin conexión.

Whisper frente a los nuevos modelos locales (2026)

Whisper inauguró la era de la transcripción local, pero ya no está solo. Velocidades medidas en un Mac M4 Pro:

Modelo Idiomas Velocidad Punto fuerte
Whisper Large V3 Turbo 100+ ~12x tiempo real La cobertura de idiomas más amplia
Parakeet V3 25 (europeos, incluido el español) ~100x tiempo real 6,32 % de WER, sin alucinaciones en los silencios
SenseVoice Small zh, ja, ko, yue, en ~52x tiempo real El mejor para chino, japonés y coreano

Los tres funcionan en local dentro de Whisper Notes, y puedes cambiar de modelo en cada grabación. Los benchmarks comparativos están en nuestra página de comparación de modelos Whisper.

Cómo hacer transcripción Whisper sin conexión en Mac y iPhone

Sin línea de comandos, sin Python, sin nube:

  1. Descarga Whisper Notes para Mac (prueba gratis) o para iPhone ($6.99 una sola vez).
  2. Elige un modelo: Whisper Large V3 Turbo para la cobertura de idiomas más amplia, Parakeet V3 para máxima velocidad en español y otras lenguas europeas, SenseVoice para lenguas CJK. Se descarga una vez y funciona para siempre sin conexión.
  3. Graba directamente, dicta en cualquier app manteniendo pulsada la tecla Fn, o arrastra archivos de audio y vídeo (MP3, WAV, M4A, MP4).
  4. El texto va apareciendo mientras se procesa. Exporta como TXT o SRT.

¿Escéptico con lo de "sin conexión"? Activa primero el modo avión. La transcripción funciona a plena velocidad — no se sube nada, nunca.

¿Qué precisión tiene la transcripción Whisper en español? ¿Qué modelo elegir?

Muy alta — si eliges el modelo adecuado. Para audio en español, la recomendación clara es Parakeet V3: el modelo por defecto de Whisper Notes, que cubre 25 lenguas europeas incluido el español, transcribe en la clase del 6,32 % de WER y funciona unas 10x más rápido que Whisper. Si tu grabación incluye idiomas que Parakeet no cubre, cambia a Whisper Large V3 Turbo (más de 100 idiomas, ~1,5 GB) — puedes elegir el modelo en cada grabación, todo íntegramente en tu dispositivo.

Preguntas frecuentes

¿La transcripción Whisper es gratis?

El modelo en sí es gratuito y de código abierto (licencia MIT). Ejecutarlo con herramientas de línea de comandos como whisper.cpp no cuesta nada, pero requiere configuración. La API de OpenAI cobra $0.006 por minuto de audio. Las apps nativas empaquetan los modelos por un precio pequeño — Whisper Notes cuesta $6.99 una sola vez, con prueba gratuita en Mac (10.000 palabras).

¿Puede la transcripción Whisper funcionar sin conexión?

Sí — ese es precisamente el sentido de los pesos abiertos. Una vez que el archivo del modelo está en tu dispositivo, no hace falta internet. Whisper Notes ejecuta Whisper Large V3 Turbo en Apple Silicon mediante CoreML/Metal, totalmente sin conexión. Puedes comprobarlo con el modo avión.

¿Qué modelo de Whisper es el más preciso?

large-v3 tiene la mejor precisión bruta. large-v3-turbo lo iguala con una diferencia de una fracción de punto porcentual de WER, funcionando unas 5x más rápido — por eso es hoy la opción por defecto en la mayoría de las herramientas.

¿Whisper es compatible con mi idioma?

Whisper cubre unas 100 lenguas, con los mejores resultados en las que tienen más datos (inglés, español, alemán, francés, etc.). Para chino, japonés, coreano y cantonés, SenseVoice ofrece mejor puntuación y una velocidad mucho mayor en Apple Silicon.

¿Existe una app de transcripción Whisper para iPhone?

Sí. Whisper Notes ejecuta modelos Whisper optimizados para el Neural Engine del iPhone (iPhone 12 y posteriores) — graba, importa desde Notas de Voz o Archivos y transcribe todo en el dispositivo por $6.99, sin suscripción.