Whisper-transkribering innebär att omvandla tal till text med OpenAI:s Whisper — en AI-modell med öppen källkod som du kan köra i molnet, på en server eller helt på din egen enhet. Den här guiden går igenom hur Whisper fungerar, vilken modellstorlek du ska välja, hur exakt den egentligen är och det snabbaste sättet att köra den offline på en Mac eller iPhone.
Vad är Whisper, egentligen?
Whisper är en modell för automatisk taligenkänning (ASR) som OpenAI släppte i september 2022 under MIT-licens. Det är en encoder-decoder-transformer tränad på över 680 000 timmar flerspråkigt ljud, och den klarar transkribering på ungefär 100 språk plus översättning till engelska.
Det som spelar roll för dig: modellens vikter är öppna. Till skillnad från Googles eller Amazons tal-API:er behöver Whisper inte köras på någon annans server. Det finns ett helt ekosystem för att köra den lokalt — whisper.cpp, faster-whisper och native-appar som Whisper Notes. Det är det som gör verkligt privat transkribering offline möjlig.
Whisper-modellernas storlekar: vilken ska du använda
Whisper finns i sex huvudstorlekar. Större betyder mer exakt och långsammare:
| Modell | Parametrar | Hastighet | Bäst för |
|---|---|---|---|
| tiny | 39M | Snabbast | Snabba utkast, svag hårdvara |
| base | 74M | Mycket snabb | Enkelt, rent ljud |
| small | 244M | Snabb | Bra balans mellan hastighet och precision på mobil |
| medium | 769M | Måttlig | Sällan rätt val i dag |
| large-v3 | 1.55B | Långsammast | Maximal precision, svårt ljud |
| large-v3-turbo | 809M | ~5x snabbare än large-v3 | Standardvalet 2026 |
För nästan alla är large-v3-turbo svaret: den behåller large-v3:s encoder men skär ner antalet decoder-lager från 32 till 4, vilket ger nästan identisk precision till en bråkdel av beräkningskostnaden. Vi har benchmarkat den i detalj i Whisper Large V3 Turbo vs V3.
Hur exakt är Whisper-transkribering?
På rent engelskt ljud når de stora modellerna en ordfelsfrekvens (WER) på ungefär 5–8 % — jämförbart med professionell mänsklig transkribering för de flesta praktiska ändamål. Precisionen sjunker vid bakgrundsbrus, kraftiga brytningar, överlappande tal och språk med lite träningsdata.
Whispers ett berömda felbeteende: hallucinationer under tystnad. Dess autoregressiva decoder hittar ibland på upprepade fraser eller undertextkrediter när ingen pratar. Nyare modeller åtgärdar detta — NVIDIA:s Parakeet V3 tränades uttryckligen på ljud utan tal och producerar noll hallucinationer i våra tester (fullständig benchmark Parakeet V3 vs Whisper).
För kinesiska, japanska, koreanska och kantonesiska slår en specialiserad modell Whisper i både hastighet och interpunktion: se SenseVoice vs Whisper för CJK-språk.
5 sätt att köra Whisper-transkribering
| Metod | Kostnad | Integritet | Installation |
|---|---|---|---|
| OpenAI API | Betala per ljudminut | Ljudet laddas upp | API-nyckel + kod |
| openai-whisper (referens-Python) | Gratis | 100 % lokalt | Python-miljö, GPU rekommenderas |
| whisper.cpp / faster-whisper | Gratis | 100 % lokalt | Kommandorad |
| Native-app (Whisper Notes) | $6.99 en gång, gratis provperiod på Mac | 100 % på enheten | Ingen |
| Webbaserade demoverktyg | Gratisnivåer | Ljudet laddas upp | Ingen |
Tumregeln: om du lever i terminalen är faster-whisper utmärkt. Bygger du en produkt är API:et rimligt. Vill du bara få dina inspelningar transkriberade privat utan att röra Python, använd en native-app — det är hela anledningen till att Whisper-appar för Mac finns.
Väger du offlineverktyg i ett bredare perspektiv — inklusive alternativ för Windows och Android? Se vår kompletta guide till offline tal-till-text.
Whisper vs nyare lokala modeller (2026)
Whisper startade eran av lokal transkribering, men är inte längre ensam. Hastigheterna nedan är uppmätta på en Mac med M4 Pro:
| Modell | Språk | Hastighet | Utmärker sig med |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | ~12x realtid | Bredast språktäckning |
| Parakeet V3 | 25 (europeiska) | ~100x realtid | 6,32 % WER, inga hallucinationer vid tystnad |
| SenseVoice Small | zh, ja, ko, yue, en | ~52x realtid | Bäst för kinesiska, japanska, koreanska |
Alla tre körs lokalt i Whisper Notes, och du kan byta modell per inspelning. Benchmarks sida vid sida finns på vår jämförelsesida för Whisper-modeller.
Så kör du Whisper-transkribering offline på Mac och iPhone
Ingen kommandorad, ingen Python, inget moln:
- Ladda ner Whisper Notes för Mac (gratis provperiod) eller för iPhone ($6.99 en gång).
- Välj en modell: Whisper Large V3 Turbo för bred språktäckning, Parakeet V3 för snabbhet på engelska, SenseVoice för CJK. Den laddas ner en gång och fungerar sedan för alltid offline.
- Spela in direkt, diktera var som helst i systemet genom att hålla in Fn, eller släpp in ljud- och videofiler (MP3, WAV, M4A, MP4).
- Texten strömmar in medan den bearbetas. Exportera som TXT eller SRT.
Skeptisk till "offline"? Slå på flygplansläget först. Transkriberingen körs i full hastighet — ingenting laddas någonsin upp.
Hur exakt är Whisper-transkribering på svenska? Vilken modell ska du välja?
Svenska är ett av de 25 europeiska språk som Parakeet V3 täcker — med en ordfelsfrekvens i klassen 6,32 % WER och ungefär 10x högre hastighet än Whisper. Det är därför Parakeet V3 är standardmodellen i Whisper Notes, och det bästa valet för svenska inspelningar. Whisper Large V3 Turbo (100+ språk, ~1,5 GB) är en bra reserv för riktigt svårt ljud eller språk som Parakeet inte täcker. Båda modellerna körs helt offline på både Mac och iPhone.
Vanliga frågor
Är Whisper-transkribering gratis?
Själva modellen är gratis och öppen källkod (MIT-licens). Att köra den via kommandoradsverktyg som whisper.cpp kostar ingenting men kräver installation. OpenAI:s API tar betalt per ljudminut. Native-appar paketerar modellerna för en liten avgift — Whisper Notes kostar $6.99 en gång, med gratis provperiod på Mac.
Kan Whisper-transkribering köras offline?
Ja — det är hela poängen med öppna vikter. När modellfilen finns på din enhet behövs inget internet. Whisper Notes kör Whisper Large V3 Turbo på Apple Silicon via CoreML/Metal, helt offline. Du kan verifiera det med flygplansläget.
Vilken Whisper-modell är mest exakt?
large-v3 har den bästa råa precisionen. large-v3-turbo matchar den inom en bråkdels procent WER men körs ungefär 5x snabbare, vilket är varför den är standard i de flesta verktyg i dag.
Stöder Whisper mitt språk?
Whisper täcker ungefär 100 språk och är starkast på språk med mycket träningsdata (engelska, spanska, tyska, franska osv.). För kinesiska, japanska, koreanska och kantonesiska ger SenseVoice bättre interpunktion och mycket högre hastighet på Apple Silicon.
Finns det en app för Whisper-transkribering på iPhone?
Ja. Whisper Notes kör Whisper-modeller optimerade för iPhones Neural Engine (iPhone 12 och nyare) — spela in, importera från Röstmemon eller Filer och transkribera helt på enheten för $6.99, utan prenumeration.