Superwhisper vs Whisper Notes: una comparación técnica

Precios, modelos de voz, permisos y arquitectura — una comparación detallada de dos apps de transcripción offline para Mac

Whisper Notes vs Superwhisper - Comparación de arquitectura y filosofía
Whisper Notes - Quizás la mejor app de transcripción Whisper offline para iOS y Mac

Superwhisper fue un pionero. Mostró a la comunidad Mac lo que era posible: ejecutar el modelo Whisper de OpenAI localmente en Apple Silicon, transcribir voz sin enviar audio a la nube.

Durante un tiempo, era exactamente lo que muchos de nosotros queríamos—una utilidad de transcripción simple, rápida y local.

Luego cambió.

La dirección reciente ha sido hacia convertirse en un "Asistente IA"—consciencia del contexto, sincronización en la nube, modos agénticos que interpretan tus palabras en lugar de solo transcribirlas.

Con este giro vinieron tres cambios estructurales:

La Suscripción: Pagar alquiler mensual por modelos que se ejecutan en tu propio hardware.

El Permiso: Input Monitoring que puede observar todas tus pulsaciones de teclas.

La Cuenta: Inicio de sesión obligatorio para software que funciona completamente offline.

Esta página no trata sobre bugs o problemas temporales. Trata sobre filosofía arquitectónica.

Whisper Notes existe como alternativa para quienes preferían lo que Superwhisper solía ser: una utilidad offline confiable que hace una cosa bien.

Comparación rápida: Whisper Notes vs Superwhisper

Característica Whisper Notes Superwhisper
Precio $6.99 una vez $8.49/mes o $250 de por vida
Permiso macOS Solo Accesibilidad Input Monitoring
Cuenta requerida No
App iOS $6.99 (compra separada) Suscripción separada
Modelos de voz Whisper + Parakeet V3 + Qwen3-ASR Whisper (+ variantes distil)
100% Offline Opcional (híbrido)
Edición IA local Sí (Gemma 4, en el dispositivo) Sí (depende del cloud)
Funciones Contexto IA No

Modelos de voz: tres motores vs uno

Esta es la diferencia técnica que más importa en el uso diario.

Superwhisper ofrece Whisper y sus variantes destiladas. Whisper Notes incluye tres motores de voz independientes, cada uno optimizado para diferentes escenarios:

Comparación de modelos de voz

Modelo Velocidad WER Mejor para
Whisper Large V3 Turbo 10–15× tiempo real 7.44% 100+ idiomas, uso general
Parakeet V3 ~35× tiempo real 6.32% Inglés — más rápido, menor tasa de error
Qwen3-ASR Streaming Chino, japonés, coreano + 27 idiomas
Por qué tres modelos importan:

Parakeet V3 (de NVIDIA) transcribe inglés 3× más rápido que Whisper con menor tasa de error — 6.32% vs 7.44% WER en el benchmark FLEURS. Una reunión de 35 minutos que toma 3 minutos con Whisper se completa en menos de 20 segundos con Parakeet V3.

Qwen3-ASR está diseñado específicamente para idiomas CJK (chino, japonés, coreano) y ofrece transcripción en streaming — el texto aparece mientras hablas, no después de terminar.

Estos no son modelos en la nube detrás de un paywall. Se ejecutan completamente en el Neural Engine de tu Mac, incluidos en la compra de $6.99.

Superwhisper solo ofrece variantes de Whisper. Para flujos de trabajo centrados en inglés o CJK, la brecha en selección de modelos es significativa.

La cuestión del Input Monitoring

Este es el permiso que hace que los usuarios conscientes de la privacidad se detengan.

Superwhisper solicita acceso a Input Monitoring en macOS. Este permiso permite que una aplicación reciba todos los eventos de teclado y ratón en todo el sistema—independientemente de qué aplicación esté en primer plano.

Es la misma categoría de permisos utilizada por herramientas de accesibilidad, software de automatización y sí, keyloggers.

¿Por qué Superwhisper lo necesita?

Para ser "inteligente". Sus funciones de Contexto IA leen el contenido de tu pantalla, entienden qué aplicación estás usando y adaptan su comportamiento en consecuencia. Para observar tu entorno, necesitan permisos de observación.

El compromiso arquitectónico:

Obtienes transcripción consciente del contexto. Ellos obtienen la capacidad técnica de ver todo lo que escribes, incluyendo contraseñas, mensajes privados y documentos confidenciales.

No sugerimos intención maliciosa—pero el permiso en sí es arquitectónicamente capaz de vigilancia.

Arquitectura de Permisos

Input Monitoring (Superwhisper):
Puede recibir todos los eventos de teclado en todas las aplicaciones. Requerido para "consciencia del contexto".

Accesibilidad (Whisper Notes):
Puede insertar texto en la posición del cursor. No puede leer tus pulsaciones ni observar otras apps. Solo salida.

macOS Privacy Settings
El permiso de Accesibilidad es más seguro que Input Monitoring

Whisper Notes usa exclusivamente el permiso de Accesibilidad. Podemos insertar texto donde está tu cursor—eso es salida. No podemos leer lo que escribes ni lo que hay en tu pantalla.

Nuestra posición: Elegimos no ser "inteligentes" porque inteligente requiere observar. Una herramienta de transcripción no necesita saber que tus contraseñas existen. Solo necesita escribir lo que dijiste.

El problema del alquiler de hardware

Esta es la decisión de precios que frustra a los usuarios avanzados.

Superwhisper ha puesto modelos de IA locales—incluyendo Nvidia Parakeet y variantes de Whisper—detrás de un paywall de suscripción. Los usuarios ahora pagan tarifas mensuales para desbloquear procesamiento que se ejecuta completamente en sus propios dispositivos.

Seamos precisos sobre lo que está pasando:

• Tu MacBook M3 o M4 tiene un Neural Engine.

• Apple diseñó este chip específicamente para aprendizaje automático en el dispositivo.

• Los pesos del modelo Whisper son código abierto, publicados por OpenAI.

• La electricidad viene de tu enchufe.

¿Por qué exactamente está pagando la suscripción?

Período Whisper Notes Superwhisper (Mensual) Superwhisper (De por vida)
Año 1 $6.99 $101.88 $250
Año 3 $6.99 $305.64 $250
Año 5 $6.99 $509.40 $250

Si las funciones en la nube de Superwhisper—sincronización, asistentes IA, APIs externas—te aportan valor, el precio de suscripción es defendible. Estás pagando por su infraestructura.

Pero ¿poner modelos locales detrás del mismo paywall? Eso es cobrar alquiler por computación que ocurre en hardware que ya posees.

Las reseñas de usuarios reflejan esta frustración: "¿En serio pusieron modelos locales detrás de un paywall? No tiene sentido."

Nuestra filosofía de precios: Whisper Notes cuesta $6.99 una vez porque no operamos infraestructura en la nube. Tu Neural Engine hace el trabajo. Nosotros proporcionamos la interfaz. Es una transacción única, no una relación continua.
Whisper Notes App Store listing - $6.99 one-time purchase on iPhone
Precio Whisper Notes: $6.99 compra única por plataforma

La complejidad y sus consecuencias

Esta sección no trata sobre un bug específico. Trata sobre compromisos arquitectónicos.

Cuando el software intenta hacer muchas cosas—sincronización en la nube, consciencia del contexto, interpretación agéntica, procesamiento híbrido local/nube—necesariamente se vuelve complejo.

Los sistemas complejos tienen más modos de fallo que los simples. Esto no es una crítica; es física.

Los usuarios de Superwhisper han reportado un patrón de fallos:

• Grabaciones que no producen transcripciones

• Audio que parece desaparecer

• Errores de "Voz no encontrada" después de sesiones largas

No podemos diagnosticar su código, pero podemos observar el patrón: cuantas más funciones gestiona una app, más formas tiene de fallar.

El problema de la máquina de estados:

Las apps conscientes del contexto deben rastrear muchas variables. ¿Qué hay en pantalla? ¿Es la red suficientemente rápida para procesamiento en la nube? ¿Debería sincronizarse esta grabación? ¿Qué modelo de IA debería manejar este contexto?

Cada punto de decisión es un potencial desajuste entre el estado esperado y el real.

Whisper Notes es deliberadamente simple:

Grabar audio → Escribir a disco continuamente → Procesar con Whisper → Mostrar texto

Flujo de datos lineal. Sin sincronización en la nube que pueda fallar. Sin consciencia del contexto que pueda fallar. Sin decisiones de enrutamiento híbrido.

Usamos persistencia progresiva—escribiendo audio a disco cada pocos segundos durante la grabación. Si la app se cuelga, o tu batería muere, pierdes como máximo los últimos segundos. Los 20 minutos anteriores ya están seguros en tu disco.

Esta no es una característica que promocionamos; es simplemente cómo debería funcionar el software de grabación confiable.

El compromiso es real: No podemos hacer lo que hace Superwhisper. No entendemos el contexto de tu pantalla. No sincronizamos entre dispositivos. No tenemos modos de IA que reformateen tu discurso.

Solo transcribimos. Con precisión, confiabilidad, localmente. Ese es todo el producto.

El requisito de cuenta

Superwhisper requiere crear una cuenta para usar el software—incluso para transcripción local en tu propio dispositivo.

Esto sirve a su modelo de negocio: la gestión de suscripciones, sincronización en la nube y análisis de uso requieren identidad del usuario.

Pero para quienes simplemente quieren voz-a-texto local, es fricción sin beneficio.

Whisper Notes no tiene sistema de cuentas:

• Descarga la app

• Otorga permiso de Accesibilidad

• Empieza a hablar

Sin email. Sin contraseña. Sin verificación de identidad.

No se trata solo de conveniencia. Se trata de minimización de datos:

• Cada cuenta es otra contraseña que gestionar

• Cada entrada en base de datos es otro objetivo de brecha

• Cada identidad de usuario es otro punto de datos que proteger

Para software que se ejecuta completamente en tu dispositivo, no vemos justificación para saber quién eres. El modelo Whisper no necesita tu email para convertir voz a texto.

Cuándo Superwhisper es adecuado para ti

No afirmamos que Whisper Notes sea universalmente mejor. Superwhisper tomó decisiones arquitectónicas que sirven bien a casos de uso específicos.

Elige Superwhisper si:

• Quieres modos de Contexto IA que entienden tu pantalla y adaptan la salida

• Necesitas sincronización en la nube entre múltiples Macs

• Valoras la experiencia de "asistente" sobre la transcripción pura

• La suscripción o precio de $250 de por vida encaja con el valor de tu flujo de trabajo

• El permiso de Input Monitoring no te preocupa

Elige Whisper Notes si:

• Quieres tres modelos de voz — Whisper, Parakeet V3 (inglés más rápido) y Qwen3-ASR (mejor para chino/japonés/coreano)

• Quieres edición IA local con Gemma 4 — corrección de puntuación, eliminación de muletillas, generación automática de títulos, todo en el dispositivo

• Quieres permisos de sistema mínimos (solo Accesibilidad)

• Quieres pagar una vez ($6.99) y poseer el software

• No quieres crear una cuenta

• También usas iPhone ($6.99 en el App Store, compra separada de la versión Mac)

La evaluación honesta:

Superwhisper está construyendo hacia un futuro donde la IA entiende todo tu contexto computacional. Eso es ambicioso y algunos usuarios lo quieren.

Whisper Notes está construyendo lo opuesto: una utilidad que hace exactamente una cosa, no sabe nada de tu computadora más allá de la entrada del micrófono, y funciona de la misma manera cada vez.

Software aburrido para personas que valoran la previsibilidad.

El caso del software aburrido

"Aburrido" no es peyorativo en ingeniería de software. Aburrido significa predecible. Aburrido significa menos sorpresas.

El software aburrido:

• No necesita una cuenta

• No requiere conectividad de red para funciones principales

• No solicita permisos más allá de lo estrictamente necesario

• No evoluciona hacia algo que no pediste

Superwhisper empezó como software aburrido. Una utilidad de transcripción local. Simple, rápida, confiable.

Luego creció en ambiciones. Quería ser un asistente IA, entender contexto, sincronizar a través de nubes, interpretar tus palabras.

Algunos usuarios siguieron esa evolución felizmente. Otros extrañan lo que era.

Whisper Notes es intencionalmente aburrido. Hacemos una cosa: convertir voz a texto usando el Neural Engine de tu dispositivo. No observamos tu pantalla. No sincronizamos tus datos. No interpretamos tu intención. Solo transcribimos.

$6.99 por plataforma. Sin cuenta. Sin Input Monitoring. Sin suscripciones. Sin ambiciones más allá de la confiabilidad.

Para quienes preferían la visión original de lo que las herramientas de transcripción local podían ser—Whisper Notes está aquí.

Preguntas frecuentes

¿Por qué Superwhisper requiere el permiso de Input Monitoring?

Superwhisper usa Input Monitoring para 'consciencia del contexto'—entender qué hay en tu pantalla para adaptar el comportamiento de la IA. Este permiso permite leer todas las pulsaciones de teclas en todas las aplicaciones. Whisper Notes solo usa el permiso de Accesibilidad, que puede insertar texto pero no puede observar tu entrada u otras apps.

¿Por qué Superwhisper cambió a precios de suscripción?

Superwhisper opera infraestructura en la nube para sincronización, cuentas y algunas funciones de IA. Las suscripciones financian esa infraestructura. Sin embargo, también pusieron modelos locales (que se ejecutan en tu hardware) detrás del mismo paywall—y esa es la decisión de precios que los usuarios más cuestionan.

¿Es Whisper Notes tan preciso como Superwhisper?

Whisper Notes ofrece tres modelos de voz. Parakeet V3 tiene una tasa de error de palabras más baja (6.32%) que Whisper (7.44%) en el benchmark FLEURS de inglés, y funciona 3× más rápido. Para chino, japonés y coreano, Qwen3-ASR está diseñado específicamente para estos idiomas. Superwhisper solo ofrece variantes de Whisper.

¿Qué modelos de voz soporta Whisper Notes?

Tres modelos: Whisper Large V3 Turbo (100+ idiomas, uso general), Parakeet V3 de NVIDIA (inglés más rápido, menor tasa de error) y Qwen3-ASR de Alibaba (optimizado para chino, japonés, coreano y 27 idiomas más con salida en streaming). Todos se ejecutan localmente en tu dispositivo.

¿Cuánto cuesta Whisper Notes comparado con Superwhisper?

Whisper Notes cuesta $6.99 por plataforma (iOS y Mac se venden por separado). Superwhisper es $8.49/mes o $250 de por vida, con la app iOS requiriendo una suscripción separada. En 3 años: Whisper Notes cuesta $6.99 por plataforma, Superwhisper mensual cuesta $305.64.

¿Puede Whisper Notes sincronizar entre dispositivos?

No, por diseño. No operamos servidores en la nube, así que no hay nada a través de lo cual sincronizar. Tus grabaciones permanecen en el dispositivo donde las creaste. Esto elimina fallos de sincronización y asegura que tus datos de voz nunca abandonen tu hardware. Usa AirDrop o exportación manual si es necesario.

¿Por qué Whisper Notes no requiere una cuenta?

La transcripción local no tiene razón técnica para requerir verificación de identidad. Creemos en la minimización de datos—si no necesitamos tu email para que el software funcione, no deberíamos pedirlo. Sin cuenta significa sin contraseña que gestionar, sin entrada de base de datos que vulnerar.

¿Cuál es la diferencia entre los permisos de Input Monitoring y Accesibilidad?

Input Monitoring puede recibir todos los eventos de teclado/ratón en todo el sistema (observación). Accesibilidad puede insertar texto y realizar automatización de UI (acción). Whisper Notes usa Accesibilidad para escribir texto transcrito en la posición de tu cursor—solo salida, sin observación de lo que escribes.

Tres modelos de voz. $6.99 una vez.

Whisper + Parakeet V3 + Qwen3-ASR. Edición IA local. Sin Input Monitoring. Sin suscripciones. Sin cuentas.