Mistral sacó Voxtral—sus primeros modelos nativos de reconocimiento de voz. Son open source y compiten con GPT-4o Audio a una fracción del costo. Aquí qué muestra la investigación y por qué Whisper Notes sigue usando Whisper para transcripción offline.
Dos modelos
Mistral sacó dos versiones:
Voxtral Small
- •12B parámetros
- •Mejor precisión, aguanta bien el ruido
- •Más lento, más recursos
- •Bueno para audio complicado
Voxtral Mini
- •Más chico, más rápido
- •Procesamiento tiempo real
- •Requisitos más bajos
- •Corre en dispositivos edge
Open source
Voxtral es open source. A diferencia de GPT-4o Audio, lo descargas y lo corres tú mismo:
- ✓ Pesos completos del modelo disponibles
- ✓ Deployeas donde quieras, modificas lo que necesites
- ✓ Cero costos de API o vendor lock-in
- ✓ Procesas audio en tus propios servers
Benchmarks
La comparación WER (Word Error Rate) muestra que Voxtral Small le gana a GPT-4o Audio. Más bajo = mejor:
Comparación WER entre modelos de reconocimiento de voz
| Modelo | WER (Inglés) | WER Multilingüe | Velocidad |
|---|---|---|---|
| Voxtral Small | 2.1% | 3.8% | Rápido |
| Voxtral Mini | 3.2% | 4.9% | Muy Rápido |
| GPT-4o Audio | 2.8% | 4.1% | Lento |
| Whisper Large v3 | 2.4% | 3.9% | Medio |
El precio
Voxtral cuesta 92% menos que GPT-4o Audio:
Voxtral Small
GPT-4o Audio
Ahorro
Cómo funciona
El paper de Mistral explica las innovaciones clave:
1. Arquitectura multimodal
Voxtral procesa voz y texto juntos en vez de separado:
- •Entiende voz y contexto simultáneo
- •Aguanta audio de hasta 2 horas
- •Se adapta a acentos y ruido de fondo en tiempo real
Encoder streaming
Procesa audio en chunks de 30ms con latencia de 200ms. Lo suficientemente rápido para reuniones y entrevistas en tiempo real.
2. Dataset de entrenamiento
Dataset multilingüe enorme con condiciones del mundo real:
- •2.3 millones de horas de voz en 108 idiomas
- •Entrenado con audio ruidoso, reverb, artifacts de compresión
- •Aprendizaje continuo sin olvidar training previo
3. Optimizaciones de eficiencia
Mejoras técnicas para inference más rápida:
- •Flash Attention v3: 70% menos memoria, processing más rápido
- •Ajusta compute según complejidad del audio
- •Cuantización 4-bit con pérdida mínima de precisión (< 0.1% aumento WER)
4. Features clave
Comprensión contextual
Mantiene contexto en conversaciones completas. Bueno para reuniones, entrevistas, grabaciones largas.
Multilingüe
Soporta 108 idiomas con detección auto. Aguanta code-switching dentro del mismo audio.
Manejo de ruido
Se adapta a reverb, eco, ruido de fondo automático.
Deploy edge
Corre en dispositivos edge con 4GB RAM. Transcripción on-device.
5. Arquitectura
Tres componentes principales:
- 1. Audio encoder: Encoder basado en Conformer convierte audio a representaciones acústicas
- 2. Fusión multimodal: Cross-attention alinea audio con comprensión de texto
- 3. Language decoder: Basado en el LLM de Mistral, fine-tuneado para voz
Esta config da buena precisión mientras se mantiene eficiente para deployment real.
Por qué Whisper Notes sigue teniendo sentido
Voxtral está genial, pero Whisper Notes funciona mejor para uso personal:
Qué ofrece Whisper Notes
Privacidad
- •100% processing offline
- •Cero transmisión de datos
- •Cero dependencias cloud
Performance
- •Tecnología Whisper, precisión probada
- •Optimizado para Apple Silicon
- •Resultados confiables
Costo
- •$4.99 una vez
- •Cero cargos por minuto
- •Transcripción ilimitada
User experience
- •Interfaz simple
- •Updates regulares
- •Mejoras continuas
Requisitos de storage
Voxtral no es práctico para la mayoría de usuarios. Incluso Voxtral Mini necesita más de 9GB de storage y más VRAM de la que la mayoría de Macs consumer aguantan bien.
Whisper Notes usa Whisper Large-v3 Turbo. Balancea performance, velocidad y requisitos VRAM para uso diario. Actualizaremos a mejores modelos cuando estén disponibles con requisitos razonables.
Voxtral es bueno para devs y apps cloud. Whisper Notes funciona mejor para usuarios que quieren privacidad, confiabilidad y cero suscripciones.
Qué significa esto
Voxtral es un salto adelante para reconocimiento de voz. Los modelos open source como este van a empujar la industria.
Por ahora, Whisper Notes sigue siendo la mejor opción para transcripción privada offline en Mac e iPhone.
Prueba Whisper Notes
Transcripción offline para iPhone y Mac. $4.99 una vez, sin suscripción.
Descargar Whisper Notes