Guia Whisper Offline: Per Què la IA Local Ha Superat el Núvol

29 de maig del 2025
·
12 min read
·The Whisper Notes Team

La transcripció al núvol és morta. Només que encara no ho sap.

Durant l'últim any, hem observat un canvi estructural en les eines de transcripció de veu. Les solucions al núvol dominaven el mercat perquè podien executar models més grans. Aquest avantatge ha desaparegut. Ara el teu MacBook pot executar Whisper Large-v3 Turbo de 800 milions de paràmetres, processant 10 minuts d'àudio en 63 segons. L'iPhone pot executar variants optimitzades per a SoC mòbils completament fora de línia.

En aquest article, expliquem per què la transcripció Whisper fora de línia s'ha convertit en la millor opció—basant-nos en enginyeria, no en creences.

Interfície de transcripció de veu a text fora de línia de Whisper Notes

Whisper Notes: Transcripció fora de línia de nivell professional

L'equació de latència ha canviat

La transcripció al núvol té un pis de latència fix: càrrega d'àudio + cua del servidor + inferència del model + descàrrega de resultats. Fins i tot en condicions de xarxa ideals, això significa diversos segons de retard d'anada i tornada. Quan la xarxa és inestable, pot arribar a desenes de segons.

La inferència local elimina aquestes variables. Whisper Large-v3 Turbo a Apple Silicon pot aconseguir transcripció en streaming gairebé en temps real mentre parles. Sense esperar càrregues, sense jitter de xarxa, sense cues de servidor.

Les nostres mesures: En un MacBook Air M1, Large-v3 Turbo processa l'àudio a 9-10 vegades la velocitat de reproducció. 10 minuts d'enregistrament es transcriuen en aproximadament 63 segons. Això no és rendiment pic, sinó throughput sostingut i reproduïble.

Arquitectura adaptativa al maquinari

No tots els dispositius poden executar el mateix model. Això no és una limitació, sinó un disseny d'enginyeria intencionat.

Mac (Large-v3 Turbo, 809 milions de paràmetres): Els MacBooks i Macs tenen alimentació contínua, refrigeració activa i memòria suficient. Això permet executar el Large-v3 Turbo complet—un model que manté la precisió del Large-v3 mentre millora la velocitat d'inferència 4-5 vegades. Obtens precisió de nivell núvol amb velocitat local.

iPhone (variant Whisper optimitzada): Els xips mòbils operen sota restriccions d'energia i tèrmiques. Despleguem variants Whisper optimitzades per al Neural Engine, mantenint una excel·lent precisió dins del pressupost d'energia. El compromís és clar: mida de model més petita comparada amb Large-v3 Turbo, però sense latència de xarxa i funciona consistentment i amb precisió al telèfon.

La privacitat és arquitectura, no una característica

La majoria de serveis de transcripció al núvol tenen polítiques de privacitat que prometen protegir les teves dades. Però l'arquitectura fa que les polítiques de privacitat siguin irrellevants.

El moment en què l'àudio passa per la xarxa, perds el control sobre ell. Pot ser registrat, emmagatzemat en memòria cau, utilitzat per a entrenament o citat judicialment. Fins i tot amb polítiques de les millors intencions, l'existència de dades en un servidor és en si mateixa una superfície d'atac.

El processament local elimina aquesta superfície d'atac. Els enregistraments no surten del teu dispositiu. Sense registres de transmissió, sense emmagatzematge al servidor, sense possibilitat d'accés de tercers. No es tracta de confiar en nosaltres, sinó d'eliminar la necessitat de confiança.

Quan el núvol encara té sentit

La nostra posició local-first es basa en enginyeria, no en dogma. Hi ha escenaris on les solucions al núvol encara tenen sentit:

  • Col·laboració multiusuari en temps real: Quan 10 persones necessiten veure transcripcions en temps real simultàniament, un servidor compartit és una elecció arquitectònica raonable.
  • Dispositius antics amb limitacions d'emmagatzematge: Si el teu dispositiu no pot allotjar els fitxers del model, el núvol és una alternativa viable.
  • Models de llenguatge especialitzats: Llengües extremadament nínxol o dialectes poden tenir models exclusius al núvol.

La veritat sobre la precisió

Una concepció errònia comuna: models al núvol més grans signifiquen més precisió. El 2022 era cert. Ara no ho és.

Whisper Large-v3 Turbo és un model destil·lat—aprèn del Large-v3 complet, mantenint la precisió mentre redueix els requisits computacionals. En benchmarks estàndard, aconsegueix taxes d'error de paraules comparables al model complet mentre la velocitat d'inferència és 4-5 vegades més ràpida.

Consideracions del model econòmic

La transcripció al núvol basada en subscripció té costos continus—facturació per minut o tarifes mensuals. Això pot semblar barat per a usuaris ocasionals, però s'acumula ràpidament per a usuaris intensius.

L'economia del processament local és diferent: una compra única, i després el cost marginal és gairebé zero. El cost addicional d'un enregistrament de 10 minuts i un de 10 hores és el mateix: zero.

Comparació de Costos

Servei Model de preus Cost 1 any (1 hora/setmana)
Otter.ai 16,99 €/mes 203,88 €
Rev.com 0,25 €/minut 780 €
Whisper Notes 4,99 € una vegada 4,99 €

Característiques pràctiques: Per què existeixen

Cada característica que construïm és una resposta a un problema observat:

Widget de pantalla de bloqueig

Hem observat que els enregistraments més valuosos sovint es necessiten de sobte—una idea, una conversa casual, una trucada important inesperada. Desbloquejar el telèfon, trobar l'aplicació, tocar gravar—cada pas és una oportunitat de perdre el moment. La gravació amb un sol toc des de la pantalla de bloqueig elimina aquesta barrera.

Prompts inicials (vocabulari personalitzat)

Whisper funciona excel·lentment en contingut general, però cada camp té termes que no reconeix. Terminologia mèdica, termes legals, noms interns, abreviatures tècniques. Els prompts inicials et permeten dir-li al model per endavant "aquestes paraules apareixeran, reconeix-les correctament".

Configuració de prompts inicials de Whisper Notes

Configura terminologia especialitzada per millorar la precisió del reconeixement

Paràgrafs amb marca de temps

El valor dels enregistraments llargs sovint resideix en segments específics. Sense marques de temps, necessites escoltar tot l'enregistrament per trobar aquella frase. Amb marques de temps clicables, pots saltar directament a la part rellevant.

Transcripció llarga amb marques de temps i paràgrafs

Localitza amb precisió amb marques de temps, salta ràpidament

Exportació massiva

Investigadors, periodistes, advocats sovint processen desenes d'enregistraments alhora. Exportar un per un és un flux de treball inacceptable. Les operacions massives ho fan pràctic.

Multilingüe: Rendiment real en 80+ idiomes

Les dades d'entrenament de Whisper cobreixen 99 idiomes, però la profunditat de cobertura varia. Els idiomes principals com l'anglès, el xinès, l'espanyol, l'alemany i el japonès tenen grans quantitats de dades d'entrenament, i la precisió és molt alta. Els idiomes minoritaris poden tenir un rendiment lleugerament inferior, però normalment són usables.

Limitació honesta: El canvi de codi (barrejar múltiples idiomes dins d'un enregistrament) encara és un repte. Si canvies entre anglès i xinès en una frase, el model pot cometre errors en els punts de canvi. Això és una limitació general de la tecnologia actual de reconeixement de veu, no només un problema nostre.

Conclusió: Una elecció d'enginyeria, no una declaració de fe

Hem construït Whisper Notes perquè la inferència d'IA local és superior per a la transcripció de veu—en latència, privacitat, fiabilitat i cost. Això no es tracta d'estar "en contra del núvol" o "creure en local-first". Es tracta de reconèixer que les condicions tecnològiques han canviat i construir eines en conseqüència.

Si aquest enfocament arquitectònic s'ajusta a les teves necessitats, pots provar-lo a continuació.