Parakeet V3 vs Whisper: 10x snabbare, bättre noggrannhet (Benchmark)

7 mars 2026
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
Hastighet 10×
Språk som stöds 25 100+
Engelsk felfrekvens (WER) 6.32% 7.44%
Snitt felfrekvens 25 språk (WER) 12.0% 12.6%
Hallucinationer Inga Vid tystnad
Bäst för Engelska & europeiska Asiatiska, arabiska, 100+

* Hastighet: 35 min ljud på Apple Silicon. Engelsk WER: Open ASR Leaderboard. Snitt 25 språk: FLEURS-benchmark.

Fran och med version 1.3.2 levereras Whisper Notes for Mac med NVIDIA Parakeet TDT 0.6B som standardmodell for tal. Den ar 10x snabbare an Whisper Large V3 Turbo for engelska, och mer traffsaker. Whisper-modellerna finns kvar om du behover andra sprak.

Varfor vi bytte standardmodell

Whisper ar fantastiskt, men det designades som en allroundmodell. Det klarar over 100 sprak, oversatter, genererar tidsstamplar — en riktig schweizisk armekniv. Nackdelen ar hastigheten. For engelsk diktamen, dar du bara vill ha ord pa skarmen snabbt, ar det overkill.

Det som verkligen storde mig: nar jag anvande systemomfattande Fn-tangent-diktamen med Whisper och pratade i ungefar en minut, fick jag vanta 3–5 sekunder pa att texten skulle dyka upp. Den pausen bryter flodet. Du slutar prata, du vantar, du stirrar pa markoren — det tar dodal pa magin med rostskrivning.

Parakeet andrade allt. Hastigheten ar sa hog att texten dyker upp i samma ogonblick du slutar prata. Du pratar, och orden ar bara dar. Nar du valt upplevt den kanslan — det dar somlosa, vantfria flodet — ar det riktigt svart att ga tillbaka till Whisper.

Hur snabb ar Parakeet V3?

Siffror sager mer an ord. Har ar en riktig jamforelse med en 35 minuter lang ljudfil pa samma Mac:

Modell 35 min ljud
Whisper Large V3 Turbo 3 minuter
Parakeet TDT 0.6B v3 18 sekunder

Det ar 10x snabbare. Och eftersom modellen ar mindre (600M mot 800M parametrar) anvander den ocksa mindre minne och mindre batteri.

Vad som gor Parakeet v3 sa snabb

Whisper lyssnar pa ljud som om du laste en bok hogt — ord for ord, frame for frame, utan att nagonsin hoppa framat. Aven under tystnad processar den fortfarande och gissar vad som kommer harnast. Grundligt, men langsamt.

Parakeet tar ett fundamentalt annorlunda angreppssatt. Den komprimerar ljudsignalen 8x innan bearbetning, sa modellen bara ser det som spelar roll. Sedan, istallet for att mala igenom varje enskild frame, forutsager den inte bara vilket ord du sa, utan ocksa hur lange det ordet varar — och hoppar framat. Tystnad? Hoppas over helt. En lang vokal? En enda forutsagelse istallet for dussintals.

Resultatet ar en modell som bearbetar tal pa samma satt som din hjarna — fokuserar pa orden, ignorerar pauserna. Darfor ar den 10x snabbare med farre parametrar och hogre traffsakerhet.

Benchmarks: Parakeet v3 mot Whisper

Jamforelse av ordfelfrekvens: Parakeet TDT 0.6B v3 mot Whisper Large V3 mot Seamless M4T over flera benchmarkdataset

Parakeet v3 matchar eller slar modeller som ar 2-4x storre pa FLEURS-, CoVoST- och MLS-benchmarks

Pa Hugging Face Open ASR Leaderboard toppar Parakeet v3 listan med bara 600M parametrar — mindre an halften av Whisper Large V3:s 1,55B:

Modell Parametrar Snitt WER Hastighet (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

Lagre WER = farre fel. Hogre RTFx = snabbare. Parakeet vinner pa bada fronter. Med 600M parametrar ar det ocksa den minsta modellen pa listan — vilket innebar att den kor vackert pa Apple Silicon med minimalt minnes- och batteriforbrukning.

Flersprakig WER: Alla 25 sprak

Topplistan ovan tacker bara engelska. Har ar hela bilden — hur de tre modellerna i Whisper Notes presterar pa alla 25 sprak som Parakeet stodjer, matt pa FLEURS-benchmarket. Lagre WER = farre transkriptionsfel. Basta vardet mellan Large V3 och Parakeet markeras per rad:

Sprak Whisper Small Whisper Large V3 Parakeet V3
Bulgariska 37.3 12.9 12.6
Kroatiska 33.4 11.1 12.5
Tjeckiska 37.6 11.3 11.0
Danska 32.8 12.6 18.4
Nederlandska 16.4 5.6 7.5
Engelska 6.1 4.3 4.9
Estniska 51.3 19.1 17.7
Finska 24.0 7.7 13.2
Franska 15.0 6.3 5.2
Tyska 10.2 4.3 5.0
Grekiska 30.8 27.0 20.7
Ungerska 38.9 14.1 15.7
Italienska 9.8 2.3 3.0
Lettiska 53.2 18.3 22.8
Litauiska 65.6 22.3 20.4
Maltesiska 92.2 68.9 20.5
Polska 14.7 4.7 7.3
Portugisiska 7.3 3.7 4.8
Rumanska 29.8 8.2 12.4
Ryska 11.4 4.2 5.5
Slovakiska 33.3 8.4 8.8
Slovenska 49.3 19.9 24.0
Spanska 5.6 3.1 3.5
Svenska 20.8 7.9 15.1
Ukrainska 19.3 6.5 6.8
Genomsnitt 29.8 12.6 12.0

WER (%) pa FLEURS. Whisper Small-data fran Radford et al.; Large V3- och Parakeet V3-data fran NVIDIAs Canary-1B-v2-artikel.

Whisper Large V3 ligger nagot fore pa de flesta enskilda spraken — den ar trots allt 2,5x storre. Men Parakeet V3 matchar den i genomsnitt (12,0% mot 12,6%), tar grekiska, franska, estniska och maltesiska overtygande, och krossar Whisper Small over hela linjen (60% farre fel i genomsnitt). Den riktiga storyn ar inte nagon tiondels procent i WER — det ar totalpaketet: Large V3-nivaens traffsakerhet vid 23x hastigheten, med 40% av minnet, noll hallucinationer, och allt kor lokalt pa din Mac.

Inga fler hallucinationer

Om du har anvant Whisper for diktamen har du formodligen sett den hallucinera under tystnad — upprepa fraser, hitta pa ord eller plotsligt spy ut "Subtitles by Amara.org" fran ingenstans. Det hander for att Whispers autoregressiva dekoder alltid forvanter sig att producera text, aven nar det inte finns nagot att transkribera.

NVIDIA tranade Parakeet pa 36 000 timmar rent icke-tal-ljud (bakgrundsljud, hostningar, tystnad) kopplat till tomma strangmal. Modellen larde sig hur tystnad later och haller tyst. For systemomfattande diktamen som alltid ar pa ar det en gamechanger — ingen skraptext langre nar du pauser for att tanka.

Sprak som Parakeet stodjer

Parakeet v3 stodjer 25 sprak: bulgariska, danska, engelska, estniska, finska, franska, grekiska, italienska, kroatiska, lettiska, litauiska, maltesiska, nederlandska, polska, portugisiska, rumanska, ryska, slovakiska, slovenska, spanska, svenska, tjeckiska, tyska, ukrainska och ungerska.

Det tacker storsta delen av Europa, men stodjer inte kinesiska, japanska, koreanska, arabiska eller hindi. Darfor beholl vi Whisper-modellerna som nedladdningsbara alternativ. Om du dikterar pa japanska eller mandarin, valj Whisper Large V3 Turbo i modellvaljaren. For engelska och europeiska sprak ar Parakeet v3 helt enkelt den battre motorn.

Whisper Notes Mac modellvaljare som visar Parakeet V3 som standard, med Whisper Small och Whisper Large V3 Turbo som nedladdningsbara alternativ

Modellvaljare: Parakeet V3 (standard), Whisper Small och Whisper Large V3 Turbo — alla kor lokalt

Modellvaljare i Whisper Notes

Oppna Installningar for att vaxla mellan modeller:

  • Parakeet V3 (standard) — Snabbast, bast for engelska och europeiska sprak
  • Whisper Small — Lattviktion, over 100 sprak
  • Whisper Large V3 Turbo — Mest traffsaker flersprakig modell

Alla modeller kor 100% lokalt pa din Mac. Inget internet, inget moln, ingen data lamnar din enhet.

Hur är det med Parakeet V2?

Om du använde V2 tidigare kanske du undrar hur det jämför sig. V2 var en modell enbart för engelska — och dess engelska precision är faktiskt lite bättre än V3 (WER 6,05 % vs 6,32 %). V3 byter den lilla skillnaden mot stöd för 25 språk. Båda är betydligt mer exakta än Whisper.

Parakeet V2 Parakeet V3 Whisper Large V3
Engelsk WER 6.05% 6.32% 7.44%
Språk Endast engelska 25 100+

Sammanfattningsvis: om du bara behöver engelska är både V2 och V3 utmärkta. V3 är standard i Whisper Notes eftersom flerspråksstöd är viktigt för de flesta användare — och skillnaden i engelsk precision är försumbar.

Testa sjalv

Parakeet v3 ar tillganglig nu i Mac-versionen — ladda bara ner senaste DMG:n. (Uppdatering: Parakeet finns nu även i den senaste iOS-versionen.)

Fragor eller feedback? Mejla support@whispernotes.app.