La privacidad de la voz: por qué elegimos una arquitectura local
No tienes que elegir entre comodidad y control.
Las notas de voz son diferentes
Las notas de voz suelen ser desordenadas, sin filtrar y personales. Capturan pensamientos en formación—ideas antes de pulirlas, frustraciones antes de digerirlas, observaciones antes de estructurarlas. Esa autenticidad cruda es precisamente lo que las hace valiosas.
Se sienten diferentes a un documento pulido. Esa sensación importa.
Cuando grabas una nota de voz, a menudo estás hablando contigo mismo. La intimidad de ese momento—las frases incompletas, las divagaciones, la honestidad desprotegida—merece cierto respeto en cómo se maneja técnicamente.
Una cuestión de higiene digital
Tu voz es un identificador biométrico único. A diferencia de una contraseña, no puedes restablecerla. A diferencia de un número de tarjeta de crédito, no puedes solicitar uno nuevo. Esto no es para alarmar—es simplemente una característica de los datos de voz que vale la pena reconocer.
Para la mayoría de las grabaciones cotidianas, el procesamiento en la nube es perfectamente aceptable. Pero para contenido sensible—reflexiones personales, notas profesionales, conversaciones con clientes—mantener los archivos de audio crudos fuera de la nube es simplemente buena higiene digital. Es el mismo principio que no almacenar contraseñas en texto plano: no porque un desastre sea inminente, sino porque una arquitectura reflexiva previene problemas antes de que surjan.
Construimos Whisper Notes alrededor de este principio. Tu audio permanece en tu dispositivo—no porque pensemos que los servicios en la nube son peligrosos, sino porque deberías tener opción.
La arquitectura
Whisper Notes ejecuta el modelo de reconocimiento de voz Whisper de OpenAI directamente en tu hardware. No hay componente de servidor. Tus grabaciones se procesan localmente y nunca se transmiten a ningún lugar.
La implementación difiere entre plataformas para optimizar las capacidades de cada dispositivo:
Mac: Whisper Large-v3 Turbo
En Mac, ejecutamos Whisper Large-v3 Turbo—un modelo de 1.500 millones de parámetros optimizado para Apple Silicon. Esto proporciona precisión comparable a los servicios de transcripción en la nube, con puntuación correcta y formato inteligente de párrafos.
La velocidad de procesamiento escala con tu chip: las máquinas M4 alcanzan aproximadamente 12x tiempo real, mientras que los chips M1 operan a aproximadamente 8x tiempo real.
iPhone: Modelo Whisper optimizado para móvil
Los dispositivos móviles tienen restricciones diferentes—límites térmicos, duración de batería, ancho de banda de memoria. Usamos un modelo Whisper optimizado para móvil, ajustado para el Neural Engine en los chips A y M.
Aunque más pequeño que el modelo de Mac, produce texto estructurado y puntuado que supera consistentemente el dictado estándar. El compromiso es honesto: para máxima precisión en grabaciones largas, procesa en Mac. Para captura rápida, el modelo móvil funciona bien.
Diseñado para la velocidad
Las buenas ideas no esperan. Llegan mientras conduces, caminas, o justo antes de dormirte. El widget de pantalla de bloqueo está diseñado para minimizar la fricción entre el pensamiento y la grabación.
Widget de pantalla de bloqueo con Live Activity
- • Activación con un toque: Comienza a grabar directamente desde la pantalla de bloqueo
- • Live Activity: Confirmación visual de la duración de grabación en Dynamic Island
- • Face ID fluido: El widget funciona perfectamente con la autenticación Face ID
- • Compatible con manos libres: Funciona con guantes, manos mojadas o gestos de AirPods
El flujo de trabajo captura-revisión
El flujo de trabajo más efectivo para notas de voz separa la captura de la revisión. Los dispositivos móviles destacan en grabación rápida; los entornos de escritorio en edición profunda.
iPhone: Captura
Usa el iPhone para capturar pensamientos cuando surjan. El widget de pantalla de bloqueo reduce la fricción a un solo toque. El modelo móvil transcribe instantáneamente, proporcionando texto utilizable en el momento.
Mac: Revisión
En Mac, Whisper Notes ofrece herramientas para trabajo profundo:
- • Procesamiento Large-v3 Turbo: Re-transcribe grabaciones con máxima precisión
- • Párrafos con marcas de tiempo: Haz clic en cualquier párrafo para saltar a ese momento en el audio
- • Reproducción sincronizada: El texto se resalta mientras el audio se reproduce
- • Exportación flexible: Texto plano, formato con marcas de tiempo, o subtítulos SRT
- • Dictado del sistema: Mantén presionado Fn para dictar directamente en cualquier app
Transcripción con marcas de tiempo y reproducción de audio sincronizada
Tranquilidad
El beneficio real no es solo seguridad técnica—es psicológico.
Saber que tu audio nunca abandona tu dispositivo te da la libertad de hablar completamente libre, sin autocensura. Puedes grabar pensamientos a medio formar, desahogar frustraciones, hacer lluvias de ideas salvajes, o documentar asuntos profesionales sensibles—todo sin preguntarte quién podría eventualmente acceder a ese audio.
Es la misma razón por la que algunas personas prefieren escribir en un cuaderno físico: no porque las notas digitales sean peligrosas, sino porque la sensación de privacidad cambia cuán libremente piensas.
El modelo económico
Como todo el procesamiento ocurre en tu dispositivo, no hay costos de servidor que escalen con el uso. Esto permite un modelo de compra única: $4.99 para iPhone y Mac, para siempre.
Sin suscripciones. Sin tarifas por minuto. Sin límites de uso.
Los compromisos honestos
El procesamiento local viene con compromisos reales que vale la pena entender:
Consideraciones
- • Velocidad de procesamiento: La inferencia en dispositivo es más lenta que las API en la nube. Una grabación de 10 minutos toma 1-2 minutos en iPhone 15. Los servicios en la nube responden en segundos.
- • Techo de precisión: Whisper alcanza 95%+ de precisión en habla clara. Acentos fuertes o ruido de fondo significativo pueden requerir algo de edición.
- • Plataforma: Solo Apple Silicon—Mac M1 o posterior, iPhone con iOS 18+. Sin Android ni Windows.
- • Transcripción post-grabación: Whisper Notes transcribe después de grabar, no durante. Esto produce resultados más precisos.
Cuándo este enfoque es adecuado
Whisper Notes funciona bien para:
- • Profesionales conscientes de la privacidad: Legal, médico, periodismo, terapia
- • Reflexión personal: Diario, captura de ideas, procesamiento de pensamientos
- • Entornos offline: Aviones, instalaciones seguras, conexión no confiable
- • Usuarios cansados de suscripciones: Un pago, acceso permanente
Cuándo considerar alternativas
Los servicios en la nube pueden ser más adecuados si necesitas:
- • Transcripción en tiempo real compartida con un equipo
- • Procesamiento instantáneo de grabaciones muy largas
- • Soporte para Android o Windows
Resumen
Whisper Notes está construido sobre una premisa simple: las notas de voz son personales, y tú deberías controlar dónde reside ese audio. Elegimos una arquitectura local primero no porque los servicios en la nube sean malos, sino porque cierto contenido merece quedarse en tu dispositivo.
Whisper Large-v3 Turbo en Mac para precisión. Un modelo optimizado para móvil en iPhone para captura rápida. Ambas plataformas procesan completamente offline.
$4.99 una vez. iPhone y Mac. Tu audio es tuyo.