Whisper-transkribering: den kompletta guiden till tal-till-text (2026)

Whisper-transkribering innebär att omvandla tal till text med OpenAI:s Whisper — en AI-modell med öppen källkod som du kan köra i molnet, på en server eller helt på din egen enhet. Den här guiden går igenom hur Whisper fungerar, vilken modellstorlek du ska välja, hur exakt den egentligen är och det snabbaste sättet att köra den offline på en Mac eller iPhone.

Vad är Whisper, egentligen?

Whisper är en modell för automatisk taligenkänning (ASR) som OpenAI släppte i september 2022 under MIT-licens. Det är en encoder-decoder-transformer tränad på över 680 000 timmar flerspråkigt ljud, och den klarar transkribering på ungefär 100 språk plus översättning till engelska.

Det som spelar roll för dig: modellens vikter är öppna. Till skillnad från Googles eller Amazons tal-API:er behöver Whisper inte köras på någon annans server. Det finns ett helt ekosystem för att köra den lokalt — whisper.cpp, faster-whisper och native-appar som Whisper Notes. Det är det som gör verkligt privat transkribering offline möjlig.

Whisper-modellernas storlekar: vilken ska du använda

Whisper finns i sex huvudstorlekar. Större betyder mer exakt och långsammare:

Modell	Parametrar	Hastighet	Bäst för
tiny	39M	Snabbast	Snabba utkast, svag hårdvara
base	74M	Mycket snabb	Enkelt, rent ljud
small	244M	Snabb	Bra balans mellan hastighet och precision på mobil
medium	769M	Måttlig	Sällan rätt val i dag
large-v3	1.55B	Långsammast	Maximal precision, svårt ljud
large-v3-turbo	809M	~5x snabbare än large-v3	Standardvalet 2026

För nästan alla är large-v3-turbo svaret: den behåller large-v3:s encoder men skär ner antalet decoder-lager från 32 till 4, vilket ger nästan identisk precision till en bråkdel av beräkningskostnaden. Vi har benchmarkat den i detalj i Whisper Large V3 Turbo vs V3.

Hur exakt är Whisper-transkribering?

På rent engelskt ljud når de stora modellerna en ordfelsfrekvens (WER) på ungefär 5–8 % — jämförbart med professionell mänsklig transkribering för de flesta praktiska ändamål. Precisionen sjunker vid bakgrundsbrus, kraftiga brytningar, överlappande tal och språk med lite träningsdata.

Whispers ett berömda felbeteende: hallucinationer under tystnad. Dess autoregressiva decoder hittar ibland på upprepade fraser eller undertextkrediter när ingen pratar. Nyare modeller åtgärdar detta — NVIDIA:s Parakeet V3 tränades uttryckligen på ljud utan tal och producerar noll hallucinationer i våra tester (fullständig benchmark Parakeet V3 vs Whisper).

För kinesiska, japanska, koreanska och kantonesiska slår en specialiserad modell Whisper i både hastighet och interpunktion: se SenseVoice vs Whisper för CJK-språk.

5 sätt att köra Whisper-transkribering

Metod	Kostnad	Integritet	Installation
OpenAI API	Betala per ljudminut	Ljudet laddas upp	API-nyckel + kod
openai-whisper (referens-Python)	Gratis	100 % lokalt	Python-miljö, GPU rekommenderas
whisper.cpp / faster-whisper	Gratis	100 % lokalt	Kommandorad
Native-app (Whisper Notes)	$6.99 en gång, gratis provperiod på Mac	100 % på enheten	Ingen
Webbaserade demoverktyg	Gratisnivåer	Ljudet laddas upp	Ingen

Tumregeln: om du lever i terminalen är faster-whisper utmärkt. Bygger du en produkt är API:et rimligt. Vill du bara få dina inspelningar transkriberade privat utan att röra Python, använd en native-app — det är hela anledningen till att Whisper-appar för Mac finns.

Väger du offlineverktyg i ett bredare perspektiv — inklusive alternativ för Windows och Android? Se vår kompletta guide till offline tal-till-text.

Whisper vs nyare lokala modeller (2026)

Whisper startade eran av lokal transkribering, men är inte längre ensam. Hastigheterna nedan är uppmätta på en Mac med M4 Pro:

Modell	Språk	Hastighet	Utmärker sig med
Whisper Large V3 Turbo	100+	~12x realtid	Bredast språktäckning
Parakeet V3	25 (europeiska)	~100x realtid	6,32 % WER, inga hallucinationer vid tystnad
SenseVoice Small	zh, ja, ko, yue, en	~52x realtid	Bäst för kinesiska, japanska, koreanska

Alla tre körs lokalt i Whisper Notes, och du kan byta modell per inspelning. Benchmarks sida vid sida finns på vår jämförelsesida för Whisper-modeller.

Så kör du Whisper-transkribering offline på Mac och iPhone

Ingen kommandorad, ingen Python, inget moln:

Ladda ner Whisper Notes för Mac (gratis provperiod) eller för iPhone ($6.99 en gång).
Välj en modell: Whisper Large V3 Turbo för bred språktäckning, Parakeet V3 för snabbhet på engelska, SenseVoice för CJK. Den laddas ner en gång och fungerar sedan för alltid offline.
Spela in direkt, diktera var som helst i systemet genom att hålla in Fn, eller släpp in ljud- och videofiler (MP3, WAV, M4A, MP4).
Texten strömmar in medan den bearbetas. Exportera som TXT eller SRT.

Skeptisk till "offline"? Slå på flygplansläget först. Transkriberingen körs i full hastighet — ingenting laddas någonsin upp.

Hur exakt är Whisper-transkribering på svenska? Vilken modell ska du välja?

Svenska är ett av de 25 europeiska språk som Parakeet V3 täcker — med en ordfelsfrekvens i klassen 6,32 % WER och ungefär 10x högre hastighet än Whisper. Det är därför Parakeet V3 är standardmodellen i Whisper Notes, och det bästa valet för svenska inspelningar. Whisper Large V3 Turbo (100+ språk, ~1,5 GB) är en bra reserv för riktigt svårt ljud eller språk som Parakeet inte täcker. Båda modellerna körs helt offline på både Mac och iPhone.

Vanliga frågor

Är Whisper-transkribering gratis?

Själva modellen är gratis och öppen källkod (MIT-licens). Att köra den via kommandoradsverktyg som whisper.cpp kostar ingenting men kräver installation. OpenAI:s API tar betalt per ljudminut. Native-appar paketerar modellerna för en liten avgift — Whisper Notes kostar $6.99 en gång, med gratis provperiod på Mac.

Kan Whisper-transkribering köras offline?

Ja — det är hela poängen med öppna vikter. När modellfilen finns på din enhet behövs inget internet. Whisper Notes kör Whisper Large V3 Turbo på Apple Silicon via CoreML/Metal, helt offline. Du kan verifiera det med flygplansläget.

Vilken Whisper-modell är mest exakt?

large-v3 har den bästa råa precisionen. large-v3-turbo matchar den inom en bråkdels procent WER men körs ungefär 5x snabbare, vilket är varför den är standard i de flesta verktyg i dag.

Stöder Whisper mitt språk?

Whisper täcker ungefär 100 språk och är starkast på språk med mycket träningsdata (engelska, spanska, tyska, franska osv.). För kinesiska, japanska, koreanska och kantonesiska ger SenseVoice bättre interpunktion och mycket högre hastighet på Apple Silicon.

Finns det en app för Whisper-transkribering på iPhone?

Ja. Whisper Notes kör Whisper-modeller optimerade för iPhones Neural Engine (iPhone 12 och nyare) — spela in, importera från Röstmemon eller Filer och transkribera helt på enheten för $6.99, utan prenumeration.

Ladda ner för iOS

Prova gratis på Mac