Transcripció Whisper: models, velocitat i com executar-la offline (guia 2026)

La transcripció Whisper vol dir convertir la veu en text amb el Whisper d'OpenAI — un model d'IA de codi obert que pots executar al núvol, en un servidor o completament al teu propi dispositiu. Aquesta guia explica com funciona el Whisper, quina mida de model triar, com de precís és realment i la manera més ràpida d'executar-lo offline en un Mac o iPhone.

Què és exactament el Whisper?

El Whisper és un model de reconeixement automàtic de la parla (ASR) que OpenAI va publicar el setembre de 2022 sota llicència MIT. És un transformer encoder-decoder entrenat amb més de 680.000 hores d'àudio multilingüe, i transcriu en uns 100 idiomes a més de traduir a l'anglès.

La part que t'importa: els pesos del model són oberts. A diferència de les API de veu de Google o Amazon, el Whisper no ha d'executar-se al servidor d'algú altre. Hi ha tot un ecosistema per fer-lo anar localment — whisper.cpp, faster-whisper i aplicacions natives com Whisper Notes. Això és el que fa possible una transcripció realment offline i privada.

Mides del model Whisper: quina triar

El Whisper existeix en sis mides principals. Com més gran, més precís i més lent:

Model	Paràmetres	Velocitat	Ideal per a
tiny	39M	El més ràpid	Esborranys ràpids, maquinari modest
base	74M	Molt ràpid	Àudio senzill i net
small	244M	Ràpid	Bon equilibri velocitat/precisió al mòbil
medium	769M	Moderat	Rarament la tria encertada avui dia
large-v3	1.55B	El més lent	Precisió màxima, àudio difícil
large-v3-turbo	809M	~5x més ràpid que el large-v3	La tria per defecte el 2026

Per a gairebé tothom, la resposta és large-v3-turbo: conserva l'encoder del large-v3 però retalla les capes del decoder de 32 a 4, oferint una precisió gairebé idèntica amb una fracció del càlcul. En vam fer benchmarks detallats a Whisper Large V3 Turbo vs V3.

Com de precisa és la transcripció Whisper?

Amb àudio net en anglès, els models grans assoleixen una taxa d'error de paraules (WER) d'aproximadament el 5-8% — comparable a la transcripció humana professional per a la majoria d'usos pràctics. La precisió baixa amb soroll de fons, accents marcats, veus solapades i idiomes amb pocs recursos.

El mode de fallada més famós del Whisper: al·lucinacions durant el silenci. El seu decoder autoregressiu de vegades s'inventa frases repetides o crèdits de subtítols quan ningú no parla. Els models més nous ho corregeixen — el Parakeet V3 de NVIDIA es va entrenar explícitament amb àudio sense parla i no produeix cap al·lucinació als nostres tests (benchmark complet Parakeet V3 vs Whisper).

Per al xinès, japonès, coreà i cantonès, un model especialitzat supera el Whisper tant en velocitat com en puntuació: mira SenseVoice vs Whisper per a idiomes CJK.

5 maneres d'executar la transcripció Whisper

Mètode	Cost	Privadesa	Configuració
API d'OpenAI	Pagament per minut d'àudio	L'àudio es puja	Clau d'API + codi
openai-whisper (Python de referència)	Gratuït	100% local	Entorn Python, GPU recomanada
whisper.cpp / faster-whisper	Gratuït	100% local	Línia d'ordres
Aplicació nativa (Whisper Notes)	$6.99 un sol cop, prova gratuïta al Mac	100% al dispositiu	Cap
Eines de demostració web	Nivells gratuïts	L'àudio es puja	Cap

La regla general: si vius al terminal, el faster-whisper és excel·lent. Si estàs construint un producte, l'API té sentit. Si només vols les teves gravacions transcrites en privat sense tocar Python, fes servir una aplicació nativa — aquesta és tota la raó de ser de les aplicacions Whisper per a Mac.

Vols comparar eines offline de manera més àmplia — incloent-hi opcions per a Windows i Android? Mira la nostra guia completa de veu a text offline.

Whisper vs models locals més nous (2026)

El Whisper va inaugurar l'era de la transcripció local, però ja no està sol. Velocitats de sota mesurades en un Mac M4 Pro:

Model	Idiomes	Velocitat	Punt fort
Whisper Large V3 Turbo	100+	~12x temps real	La cobertura d'idiomes més àmplia
Parakeet V3	25 (europeus)	~100x temps real	6,32% de WER, sense al·lucinacions al silenci
SenseVoice Small	zh, ja, ko, yue, en	~52x temps real	El millor per a xinès, japonès, coreà

Tots tres s'executen localment a Whisper Notes, i pots canviar de model a cada gravació. Els benchmarks costat a costat són a la nostra pàgina de comparació de models Whisper.

Com executar la transcripció Whisper offline al Mac i l'iPhone

Sense línia d'ordres, sense Python, sense núvol:

Descarrega Whisper Notes per a Mac (prova gratuïta) o per a iPhone ($6.99 un sol cop).
Tria un model: Whisper Large V3 Turbo per a una cobertura àmplia d'idiomes, Parakeet V3 per a velocitat en anglès, SenseVoice per a CJK. Es descarrega un cop i després funciona per sempre offline.
Grava directament, dicta a tot el sistema mantenint premuda la tecla Fn, o arrossega-hi fitxers d'àudio i vídeo (MP3, WAV, M4A, MP4).
El text apareix a mesura que es processa. Exporta'l com a TXT o SRT.

Escèptic amb l'"offline"? Activa primer el mode d'avió. La transcripció va a tota velocitat — no es puja res, mai.

Com de precisa és la transcripció Whisper en català? Quin model triar?

Per a l'àudio en català, tria Whisper Large V3 Turbo (~1,5 GB): dels tres models de Whisper Notes és l'únic que cobreix el català, dins dels més de 100 idiomes que suporta. Ni el Parakeet V3 (25 idiomes europeus, sense català) ni el SenseVoice (centrat en xinès, japonès i coreà) l'inclouen. A Whisper Notes funciona 100% al dispositiu, tant al Mac com a l'iPhone: descarregues el model un cop i transcrius per sempre offline, fins i tot en mode d'avió.

Preguntes freqüents

La transcripció Whisper és gratuïta?

El model en si és gratuït i de codi obert (llicència MIT). Executar-lo amb eines de línia d'ordres com whisper.cpp no costa res, però requereix configuració. L'API d'OpenAI cobra per minut d'àudio. Les aplicacions natives empaqueten els models per un preu petit — Whisper Notes costa $6.99 un sol cop, amb prova gratuïta al Mac.

La transcripció Whisper pot funcionar offline?

Sí — aquest és precisament el sentit dels pesos oberts. Un cop el fitxer del model és al teu dispositiu, no cal internet. Whisper Notes executa el Whisper Large V3 Turbo en Apple Silicon via CoreML/Metal, completament offline. Ho pots comprovar amb el mode d'avió.

Quin model Whisper és el més precís?

El large-v3 té la millor precisió bruta. El large-v3-turbo l'iguala amb una diferència de WER de fraccions de punt percentual mentre va unes 5x més ràpid, i per això és el model per defecte a la majoria d'eines avui dia.

El Whisper suporta el meu idioma?

El Whisper cobreix uns 100 idiomes, amb més força en els de molts recursos (anglès, espanyol, alemany, francès, etc.). Per al xinès, japonès, coreà i cantonès, el SenseVoice ofereix millor puntuació i molta més velocitat en Apple Silicon.

Hi ha una aplicació de transcripció Whisper per a iPhone?

Sí. Whisper Notes executa models Whisper optimitzats per al Neural Engine de l'iPhone (iPhone 12 i posteriors) — grava, importa de Notes de Veu o de Fitxers i transcriu completament al dispositiu per $6.99, sense subscripció.

Descarregar per a iOS

Prova gratuïta al Mac