La transcripció Whisper vol dir convertir la veu en text amb el Whisper d'OpenAI — un model d'IA de codi obert que pots executar al núvol, en un servidor o completament al teu propi dispositiu. Aquesta guia explica com funciona el Whisper, quina mida de model triar, com de precís és realment i la manera més ràpida d'executar-lo offline en un Mac o iPhone.
Què és exactament el Whisper?
El Whisper és un model de reconeixement automàtic de la parla (ASR) que OpenAI va publicar el setembre de 2022 sota llicència MIT. És un transformer encoder-decoder entrenat amb més de 680.000 hores d'àudio multilingüe, i transcriu en uns 100 idiomes a més de traduir a l'anglès.
La part que t'importa: els pesos del model són oberts. A diferència de les API de veu de Google o Amazon, el Whisper no ha d'executar-se al servidor d'algú altre. Hi ha tot un ecosistema per fer-lo anar localment — whisper.cpp, faster-whisper i aplicacions natives com Whisper Notes. Això és el que fa possible una transcripció realment offline i privada.
Mides del model Whisper: quina triar
El Whisper existeix en sis mides principals. Com més gran, més precís i més lent:
| Model | Paràmetres | Velocitat | Ideal per a |
|---|---|---|---|
| tiny | 39M | El més ràpid | Esborranys ràpids, maquinari modest |
| base | 74M | Molt ràpid | Àudio senzill i net |
| small | 244M | Ràpid | Bon equilibri velocitat/precisió al mòbil |
| medium | 769M | Moderat | Rarament la tria encertada avui dia |
| large-v3 | 1.55B | El més lent | Precisió màxima, àudio difícil |
| large-v3-turbo | 809M | ~5x més ràpid que el large-v3 | La tria per defecte el 2026 |
Per a gairebé tothom, la resposta és large-v3-turbo: conserva l'encoder del large-v3 però retalla les capes del decoder de 32 a 4, oferint una precisió gairebé idèntica amb una fracció del càlcul. En vam fer benchmarks detallats a Whisper Large V3 Turbo vs V3.
Com de precisa és la transcripció Whisper?
Amb àudio net en anglès, els models grans assoleixen una taxa d'error de paraules (WER) d'aproximadament el 5-8% — comparable a la transcripció humana professional per a la majoria d'usos pràctics. La precisió baixa amb soroll de fons, accents marcats, veus solapades i idiomes amb pocs recursos.
El mode de fallada més famós del Whisper: al·lucinacions durant el silenci. El seu decoder autoregressiu de vegades s'inventa frases repetides o crèdits de subtítols quan ningú no parla. Els models més nous ho corregeixen — el Parakeet V3 de NVIDIA es va entrenar explícitament amb àudio sense parla i no produeix cap al·lucinació als nostres tests (benchmark complet Parakeet V3 vs Whisper).
Per al xinès, japonès, coreà i cantonès, un model especialitzat supera el Whisper tant en velocitat com en puntuació: mira SenseVoice vs Whisper per a idiomes CJK.
5 maneres d'executar la transcripció Whisper
| Mètode | Cost | Privadesa | Configuració |
|---|---|---|---|
| API d'OpenAI | Pagament per minut d'àudio | L'àudio es puja | Clau d'API + codi |
| openai-whisper (Python de referència) | Gratuït | 100% local | Entorn Python, GPU recomanada |
| whisper.cpp / faster-whisper | Gratuït | 100% local | Línia d'ordres |
| Aplicació nativa (Whisper Notes) | $6.99 un sol cop, prova gratuïta al Mac | 100% al dispositiu | Cap |
| Eines de demostració web | Nivells gratuïts | L'àudio es puja | Cap |
La regla general: si vius al terminal, el faster-whisper és excel·lent. Si estàs construint un producte, l'API té sentit. Si només vols les teves gravacions transcrites en privat sense tocar Python, fes servir una aplicació nativa — aquesta és tota la raó de ser de les aplicacions Whisper per a Mac.
Vols comparar eines offline de manera més àmplia — incloent-hi opcions per a Windows i Android? Mira la nostra guia completa de veu a text offline.
Whisper vs models locals més nous (2026)
El Whisper va inaugurar l'era de la transcripció local, però ja no està sol. Velocitats de sota mesurades en un Mac M4 Pro:
| Model | Idiomes | Velocitat | Punt fort |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | ~12x temps real | La cobertura d'idiomes més àmplia |
| Parakeet V3 | 25 (europeus) | ~100x temps real | 6,32% de WER, sense al·lucinacions al silenci |
| SenseVoice Small | zh, ja, ko, yue, en | ~52x temps real | El millor per a xinès, japonès, coreà |
Tots tres s'executen localment a Whisper Notes, i pots canviar de model a cada gravació. Els benchmarks costat a costat són a la nostra pàgina de comparació de models Whisper.
Com executar la transcripció Whisper offline al Mac i l'iPhone
Sense línia d'ordres, sense Python, sense núvol:
- Descarrega Whisper Notes per a Mac (prova gratuïta) o per a iPhone ($6.99 un sol cop).
- Tria un model: Whisper Large V3 Turbo per a una cobertura àmplia d'idiomes, Parakeet V3 per a velocitat en anglès, SenseVoice per a CJK. Es descarrega un cop i després funciona per sempre offline.
- Grava directament, dicta a tot el sistema mantenint premuda la tecla Fn, o arrossega-hi fitxers d'àudio i vídeo (MP3, WAV, M4A, MP4).
- El text apareix a mesura que es processa. Exporta'l com a TXT o SRT.
Escèptic amb l'"offline"? Activa primer el mode d'avió. La transcripció va a tota velocitat — no es puja res, mai.
Com de precisa és la transcripció Whisper en català? Quin model triar?
Per a l'àudio en català, tria Whisper Large V3 Turbo (~1,5 GB): dels tres models de Whisper Notes és l'únic que cobreix el català, dins dels més de 100 idiomes que suporta. Ni el Parakeet V3 (25 idiomes europeus, sense català) ni el SenseVoice (centrat en xinès, japonès i coreà) l'inclouen. A Whisper Notes funciona 100% al dispositiu, tant al Mac com a l'iPhone: descarregues el model un cop i transcrius per sempre offline, fins i tot en mode d'avió.
Preguntes freqüents
La transcripció Whisper és gratuïta?
El model en si és gratuït i de codi obert (llicència MIT). Executar-lo amb eines de línia d'ordres com whisper.cpp no costa res, però requereix configuració. L'API d'OpenAI cobra per minut d'àudio. Les aplicacions natives empaqueten els models per un preu petit — Whisper Notes costa $6.99 un sol cop, amb prova gratuïta al Mac.
La transcripció Whisper pot funcionar offline?
Sí — aquest és precisament el sentit dels pesos oberts. Un cop el fitxer del model és al teu dispositiu, no cal internet. Whisper Notes executa el Whisper Large V3 Turbo en Apple Silicon via CoreML/Metal, completament offline. Ho pots comprovar amb el mode d'avió.
Quin model Whisper és el més precís?
El large-v3 té la millor precisió bruta. El large-v3-turbo l'iguala amb una diferència de WER de fraccions de punt percentual mentre va unes 5x més ràpid, i per això és el model per defecte a la majoria d'eines avui dia.
El Whisper suporta el meu idioma?
El Whisper cobreix uns 100 idiomes, amb més força en els de molts recursos (anglès, espanyol, alemany, francès, etc.). Per al xinès, japonès, coreà i cantonès, el SenseVoice ofereix millor puntuació i molta més velocitat en Apple Silicon.
Hi ha una aplicació de transcripció Whisper per a iPhone?
Sí. Whisper Notes executa models Whisper optimitzats per al Neural Engine de l'iPhone (iPhone 12 i posteriors) — grava, importa de Notes de Veu o de Fitxers i transcriu completament al dispositiu per $6.99, sense subscripció.