Transcripció Fora de Línia
Per què finalment funciona
Durant anys, la transcripció local significava més lenta i pitjor. Això ha canviat.

Una mica de context
Fa uns anys, si volies una transcripció precisa, havies de carregar el teu àudio al servidor d'algú altre. Existien opcions locals, però eren notablement pitjors. El compromís era real.
Llavors van passar algunes coses. OpenAI va llançar Whisper com a model obert. Apple va començar a enviar xips amb maquinari AI dedicat. De sobte, els mateixos models que alimentaven els serveis al núvol podien funcionar en un portàtil.
Vam començar a construir Whisper Notes cap a aquella època, principalment perquè ho necessitàvem nosaltres mateixos. Va resultar que molta gent buscava el mateix.
Què ha canviat
Tres coses feien de la transcripció al núvol l'opció òbvia. Les tres han canviat.
Potència de càlcul
Els models d'IA que fan transcripció són grans—centenars de milions de paràmetres. Executar-los era lent i consumia bateria en maquinari de consum.
El Neural Engine d'Apple ho va canviar. És un xip dedicat per a càrregues de treball d'IA, i és a cada Mac de la sèrie M i iPhone recent. Whisper Large v3 Turbo ara funciona còmodament en un MacBook Air.
Als telèfons, utilitzem models més petits optimitzats per a xips mòbils. No són tan precisos com el model gran, però encara són millors que la majoria de dictat integrat.
Precisió
Això ens va sorprendre. Esperàvem que els models locals fossin "prou bons". En realitat són força bons.
Whisper Large v3 té taxes d'error de paraules més baixes que la majoria del dictat del sistema. I la diferència entre APIs locals i al núvol s'ha fet força petita. Per a la majoria dels casos d'ús, probablement no notaràs la diferència.
Això canvia el càlcul. Si la precisió és comparable, el motiu principal per carregar àudio desapareix.
Privacitat
No som aquí per espantar-te sobre els serveis al núvol. La majoria gestionen les dades de manera responsable.
Però hi ha una diferència entre "prometen no abusar-ne" i "mai ho han tingut". La teva veu és biomètrica—a diferència d'una contrasenya, no la pots canviar si alguna cosa va malament.
Amb la transcripció local, el teu àudio es queda al teu dispositiu. No xifrat-i-després-carregat. Simplement... es queda. Per a algunes persones això importa molt. Per a d'altres, potser no. Vam construir per al primer grup.
Quan utilitzar què
El local no sempre és l'opció correcta. Així és com ho pensem.
Necessites col·laboració en temps real?
Eines al núvol com Otter estan fetes per a això. Múltiples persones editant la mateixa transcripció necessiten un servidor central. Això és un bon ús del núvol.
Utilitzes Windows o Android?
La IA local és més difícil en aquestes plataformes—el suport de maquinari encara no és madur. Dragon funciona per a Windows. A Android, els serveis al núvol són normalment l'opció pràctica.
Necessites saber qui va dir què?
La identificació de parlants (diarització) requereix models addicionals. Serveis al núvol com Rev ho gestionen bé. Les eines locals s'estan posant al dia, però és encara una àrea on el núvol té avantatge.
Només necessites transcripció privada i precisa?
En això ens vam centrar. Si les teves principals preocupacions són privacitat i precisió, i estàs en maquinari Apple, el local ara funciona bé.
Què fa Whisper Notes
Executa Whisper Large v3 Turbo al teu Mac, o un model més petit optimitzat al teu iPhone. El teu àudio mai surt del dispositiu.
Al Mac, la transcripció funciona a unes 10-15 vegades la velocitat real utilitzant el Neural Engine. Una gravació d'una hora triga uns minuts. A l'iPhone és més lent, però pràctic per a la majoria de gravacions.
$4.99 un cop, per a ambdues plataformes. No gestionem servidors, així que no necessitem subscripcions. Això és tot.
En resum
La transcripció local era un compromís. Ara és una opció per defecte raonable per a molta gent.
Si necessites col·laboració o treballes en plataformes no Apple, els serveis al núvol encara tenen sentit. Si principalment vols transcripció precisa i privada en un Mac o iPhone, l'opció local s'ha tornat força bona.
Nosaltres mateixos utilitzem Whisper Notes cada dia. Fa el que necessitàvem.
Prova-ho
Pots provar-ho en mode avió si vols verificar que res es carrega. Tot funciona igual.
App Store • $4.99 • Mac i iPhone
Una compra cobreix ambdues plataformes.