La privacitat de la veu: per què vam triar l'arquitectura local
No cal que trieu entre comoditat i control.
Les notes de veu són diferents
Les notes de veu sovint són desordenades, sense filtrar i personals. Capturen pensaments en formació—idees abans de polir, frustracions abans de processar, observacions abans d'estructurar. Aquesta autenticitat crua és precisament el que les fa valuoses.
Se senten diferent d'un document polit. Aquesta sensació importa.
Quan graveu una nota de veu, sovint parleu amb vosaltres mateixos. La intimitat d'aquest moment—les frases incompletes, els pensaments errants, l'honestedat sense protecció—mereix un cert respecte en com es gestiona tècnicament.
Una qüestió d'higiene digital
La vostra veu és un identificador biomètric únic. A diferència d'una contrasenya, no la podeu restablir. A diferència d'un número de targeta de crèdit, no en podeu sol·licitar un de nou. Això no és per espantar—simplement és una propietat de les dades de veu que val la pena reconèixer.
Per a la majoria de gravacions quotidianes, el processament al núvol és completament acceptable. Però per a contingut sensible—reflexions personals, notes professionals, converses amb clients—mantenir els fitxers d'àudio crus fora del núvol és simplement bona higiene digital. És el mateix principi que no emmagatzemar contrasenyes en text pla: no perquè el desastre sigui imminent, sinó perquè una arquitectura reflexiva prevé problemes abans que sorgeixin.
Vam construir Whisper Notes al voltant d'aquest principi. El vostre àudio es queda al vostre dispositiu—no perquè pensem que els serveis al núvol són perillosos, sinó perquè hauríeu de tenir l'elecció.
L'arquitectura
Whisper Notes executa el model de reconeixement de veu Whisper d'OpenAI directament al vostre maquinari. No hi ha cap component de servidor. Les vostres gravacions es processen localment i mai es transmeten enlloc.
La implementació varia entre plataformes per optimitzar les capacitats de cada dispositiu:
Mac: Whisper Large-v3 Turbo
Al Mac, executem Whisper Large-v3 Turbo—un model de 1.500 milions de paràmetres optimitzat per a Apple Silicon. Això proporciona una precisió comparable als serveis de transcripció al núvol, amb puntuació adequada i format intel·ligent de paràgrafs.
La velocitat de processament escala amb el vostre xip: les màquines M4 aconsegueixen aproximadament 12x temps real, mentre que els xips M1 operen a aproximadament 8x temps real.
iPhone: Model Whisper optimitzat per a mòbil
Els dispositius mòbils tenen restriccions diferents—límits tèrmics, durada de la bateria, amplada de banda de memòria. Fem servir un model Whisper optimitzat per a mòbil, ajustat per al Neural Engine dels xips A i M.
Tot i ser més petit que el model de Mac, produeix text estructurat i amb puntuació que supera consistentment el dictat estàndard. El compromís és honest: per a màxima precisió en gravacions llargues, processeu al Mac. Per a captura ràpida, el model mòbil funciona bé.
Dissenyat per a la velocitat
Les bones idees no esperen. Arriben mentre conduïu, camineu o just abans de dormir. El widget de pantalla de bloqueig està dissenyat per minimitzar la fricció entre pensament i gravació.
Widget de pantalla de bloqueig amb Activitat en Viu
- • Activació d'un toc: Comenceu a gravar directament des de la pantalla de bloqueig
- • Activitat en Viu: Confirmació visual de la durada de la gravació a la Dynamic Island
- • Face ID fluid: El widget funciona perfectament amb l'autenticació Face ID
- • Amigable mans lliures: Funciona amb guants, mans mullades o gestos de toc d'AirPods
El flux de treball captura-revisió
El flux de treball més efectiu per a notes de veu separa la captura de la revisió. Els dispositius mòbils excel·leixen en gravació ràpida; els entorns d'escriptori en edició profunda.
iPhone: Captura
Utilitzeu l'iPhone per capturar pensaments quan sorgeixen. El widget de pantalla de bloqueig redueix la fricció a un sol toc. El model mòbil transcriu immediatament, proporcionant text usable al moment.
Mac: Revisió
Al Mac, Whisper Notes ofereix eines per al treball profund:
- • Processament Large-v3 Turbo: Re-transcriviu gravacions amb màxima precisió
- • Paràgrafs amb marques de temps: Feu clic a qualsevol paràgraf per saltar a aquell moment de l'àudio
- • Reproducció sincronitzada: El text es ressalta mentre l'àudio es reprodueix
- • Exportació flexible: Text pla, format amb marques de temps o subtítols SRT
- • Dictat del sistema: Manteniu Fn per dictar directament a qualsevol aplicació
Transcripció amb marques de temps i reproducció d'àudio sincronitzada
Tranquil·litat
El benefici real no és només seguretat tècnica—és psicològic.
Saber que el vostre àudio mai abandona el dispositiu us dona la llibertat de parlar completament lliurement, sense autocensura. Podeu gravar pensaments a mig formar, ventilar frustracions, fer pluja d'idees salvatge o documentar assumptes professionals sensibles—tot sense preguntar-vos qui podria finalment accedir a aquell àudio.
És la mateixa raó per la qual alguns prefereixen escriure en una llibreta física: no perquè les notes digitals siguin perilloses, sinó perquè la sensació de privacitat canvia com de lliurement penseu.
El model econòmic
Com que tot el processament passa al vostre dispositiu, no hi ha costos de servidor que escalin amb l'ús. Això permet un model de compra única: 4,99 € per a iPhone i Mac, per sempre.
Sense subscripcions. Sense tarifes per minut. Sense límits d'ús.
Els compromisos honestos
El processament local comporta compromisos reals que val la pena entendre:
Consideracions
- • Velocitat de processament: La inferència al dispositiu és més lenta que les API al núvol. Una gravació de 10 minuts triga 1-2 minuts a l'iPhone 15. Els serveis al núvol responen en segons.
- • Sostre de precisió: Whisper aconsegueix 95%+ de precisió en parla clara. Accents forts o soroll de fons significatiu pot requerir alguna edició.
- • Plataforma: Només Apple Silicon—Mac M1 o més recent, iPhone amb iOS 18+. Sense Android ni Windows.
- • Transcripció post-gravació: Whisper Notes transcriu després de gravar, no durant. Això produeix resultats més precisos.
Quan aquest enfocament encaixa
Whisper Notes funciona bé per a:
- • Professionals conscients de la privacitat: Legal, mèdic, periodisme, teràpia
- • Reflexió personal: Diari, captura d'idees, processament de pensaments
- • Entorns fora de línia: Avions, instal·lacions segures, connectivitat poc fiable
- • Usuaris cansats de subscripcions: Un pagament, accés permanent
Quan considerar alternatives
Els serveis al núvol poden encaixar millor si necessiteu:
- • Transcripció en temps real compartida amb un equip
- • Processament instantani de gravacions molt llargues
- • Suport per a Android o Windows
Resum
Whisper Notes està construït sobre una premissa simple: les notes de veu són personals, i vosaltres hauríeu de controlar on resideix aquell àudio. Vam triar una arquitectura local-first no perquè els serveis al núvol siguin dolents, sinó perquè cert contingut mereix quedar-se al vostre dispositiu.
Whisper Large-v3 Turbo al Mac per a precisió. Un model optimitzat per a mòbil a l'iPhone per a captura ràpida. Ambdues plataformes processen completament fora de línia.
4,99 € una vegada. iPhone i Mac. El vostre àudio és vostre.