TL;DR
| Parakeet V3 | Whisper Large V3 | |
|---|---|---|
| Hastighet | 10× | 1× |
| Språk som stöds | 25 | 100+ |
| Engelsk felfrekvens (WER) | 6.32% | 7.44% |
| Snitt felfrekvens 25 språk (WER) | 12.0% | 12.6% |
| Hallucinationer | Inga | Vid tystnad |
| Bäst för | Engelska & europeiska | Asiatiska, arabiska, 100+ |
* Hastighet: 35 min ljud på Apple Silicon. Engelsk WER: Open ASR Leaderboard. Snitt 25 språk: FLEURS-benchmark.
Fran och med version 1.3.2 levereras Whisper Notes for Mac med NVIDIA Parakeet TDT 0.6B som standardmodell for tal. Den ar 10x snabbare an Whisper Large V3 Turbo for engelska, och mer traffsaker. Whisper-modellerna finns kvar om du behover andra sprak.
Varfor vi bytte standardmodell
Whisper ar fantastiskt, men det designades som en allroundmodell. Det klarar over 100 sprak, oversatter, genererar tidsstamplar — en riktig schweizisk armekniv. Nackdelen ar hastigheten. For engelsk diktamen, dar du bara vill ha ord pa skarmen snabbt, ar det overkill.
Det som verkligen storde mig: nar jag anvande systemomfattande Fn-tangent-diktamen med Whisper och pratade i ungefar en minut, fick jag vanta 3–5 sekunder pa att texten skulle dyka upp. Den pausen bryter flodet. Du slutar prata, du vantar, du stirrar pa markoren — det tar dodal pa magin med rostskrivning.
Parakeet andrade allt. Hastigheten ar sa hog att texten dyker upp i samma ogonblick du slutar prata. Du pratar, och orden ar bara dar. Nar du valt upplevt den kanslan — det dar somlosa, vantfria flodet — ar det riktigt svart att ga tillbaka till Whisper.
Hur snabb ar Parakeet V3?
Siffror sager mer an ord. Har ar en riktig jamforelse med en 35 minuter lang ljudfil pa samma Mac:
| Modell | 35 min ljud |
|---|---|
| Whisper Large V3 Turbo | 3 minuter |
| Parakeet TDT 0.6B v3 | 18 sekunder |
Det ar 10x snabbare. Och eftersom modellen ar mindre (600M mot 800M parametrar) anvander den ocksa mindre minne och mindre batteri.
Vad som gor Parakeet v3 sa snabb
Whisper lyssnar pa ljud som om du laste en bok hogt — ord for ord, frame for frame, utan att nagonsin hoppa framat. Aven under tystnad processar den fortfarande och gissar vad som kommer harnast. Grundligt, men langsamt.
Parakeet tar ett fundamentalt annorlunda angreppssatt. Den komprimerar ljudsignalen 8x innan bearbetning, sa modellen bara ser det som spelar roll. Sedan, istallet for att mala igenom varje enskild frame, forutsager den inte bara vilket ord du sa, utan ocksa hur lange det ordet varar — och hoppar framat. Tystnad? Hoppas over helt. En lang vokal? En enda forutsagelse istallet for dussintals.
Resultatet ar en modell som bearbetar tal pa samma satt som din hjarna — fokuserar pa orden, ignorerar pauserna. Darfor ar den 10x snabbare med farre parametrar och hogre traffsakerhet.
Benchmarks: Parakeet v3 mot Whisper
Parakeet v3 matchar eller slar modeller som ar 2-4x storre pa FLEURS-, CoVoST- och MLS-benchmarks
Pa Hugging Face Open ASR Leaderboard toppar Parakeet v3 listan med bara 600M parametrar — mindre an halften av Whisper Large V3:s 1,55B:
| Modell | Parametrar | Snitt WER | Hastighet (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
Lagre WER = farre fel. Hogre RTFx = snabbare. Parakeet vinner pa bada fronter. Med 600M parametrar ar det ocksa den minsta modellen pa listan — vilket innebar att den kor vackert pa Apple Silicon med minimalt minnes- och batteriforbrukning.
Flersprakig WER: Alla 25 sprak
Topplistan ovan tacker bara engelska. Har ar hela bilden — hur de tre modellerna i Whisper Notes presterar pa alla 25 sprak som Parakeet stodjer, matt pa FLEURS-benchmarket. Lagre WER = farre transkriptionsfel. Basta vardet mellan Large V3 och Parakeet markeras per rad:
| Sprak | Whisper Small | Whisper Large V3 | Parakeet V3 |
|---|---|---|---|
| Bulgariska | 37.3 | 12.9 | 12.6 |
| Kroatiska | 33.4 | 11.1 | 12.5 |
| Tjeckiska | 37.6 | 11.3 | 11.0 |
| Danska | 32.8 | 12.6 | 18.4 |
| Nederlandska | 16.4 | 5.6 | 7.5 |
| Engelska | 6.1 | 4.3 | 4.9 |
| Estniska | 51.3 | 19.1 | 17.7 |
| Finska | 24.0 | 7.7 | 13.2 |
| Franska | 15.0 | 6.3 | 5.2 |
| Tyska | 10.2 | 4.3 | 5.0 |
| Grekiska | 30.8 | 27.0 | 20.7 |
| Ungerska | 38.9 | 14.1 | 15.7 |
| Italienska | 9.8 | 2.3 | 3.0 |
| Lettiska | 53.2 | 18.3 | 22.8 |
| Litauiska | 65.6 | 22.3 | 20.4 |
| Maltesiska | 92.2 | 68.9 | 20.5 |
| Polska | 14.7 | 4.7 | 7.3 |
| Portugisiska | 7.3 | 3.7 | 4.8 |
| Rumanska | 29.8 | 8.2 | 12.4 |
| Ryska | 11.4 | 4.2 | 5.5 |
| Slovakiska | 33.3 | 8.4 | 8.8 |
| Slovenska | 49.3 | 19.9 | 24.0 |
| Spanska | 5.6 | 3.1 | 3.5 |
| Svenska | 20.8 | 7.9 | 15.1 |
| Ukrainska | 19.3 | 6.5 | 6.8 |
| Genomsnitt | 29.8 | 12.6 | 12.0 |
WER (%) pa FLEURS. Whisper Small-data fran Radford et al.; Large V3- och Parakeet V3-data fran NVIDIAs Canary-1B-v2-artikel.
Whisper Large V3 ligger nagot fore pa de flesta enskilda spraken — den ar trots allt 2,5x storre. Men Parakeet V3 matchar den i genomsnitt (12,0% mot 12,6%), tar grekiska, franska, estniska och maltesiska overtygande, och krossar Whisper Small over hela linjen (60% farre fel i genomsnitt). Den riktiga storyn ar inte nagon tiondels procent i WER — det ar totalpaketet: Large V3-nivaens traffsakerhet vid 23x hastigheten, med 40% av minnet, noll hallucinationer, och allt kor lokalt pa din Mac.
Inga fler hallucinationer
Om du har anvant Whisper for diktamen har du formodligen sett den hallucinera under tystnad — upprepa fraser, hitta pa ord eller plotsligt spy ut "Subtitles by Amara.org" fran ingenstans. Det hander for att Whispers autoregressiva dekoder alltid forvanter sig att producera text, aven nar det inte finns nagot att transkribera.
NVIDIA tranade Parakeet pa 36 000 timmar rent icke-tal-ljud (bakgrundsljud, hostningar, tystnad) kopplat till tomma strangmal. Modellen larde sig hur tystnad later och haller tyst. For systemomfattande diktamen som alltid ar pa ar det en gamechanger — ingen skraptext langre nar du pauser for att tanka.
Sprak som Parakeet stodjer
Parakeet v3 stodjer 25 sprak: bulgariska, danska, engelska, estniska, finska, franska, grekiska, italienska, kroatiska, lettiska, litauiska, maltesiska, nederlandska, polska, portugisiska, rumanska, ryska, slovakiska, slovenska, spanska, svenska, tjeckiska, tyska, ukrainska och ungerska.
Det tacker storsta delen av Europa, men stodjer inte kinesiska, japanska, koreanska, arabiska eller hindi. Darfor beholl vi Whisper-modellerna som nedladdningsbara alternativ. Om du dikterar pa japanska eller mandarin, valj Whisper Large V3 Turbo i modellvaljaren. For engelska och europeiska sprak ar Parakeet v3 helt enkelt den battre motorn.
Modellvaljare: Parakeet V3 (standard), Whisper Small och Whisper Large V3 Turbo — alla kor lokalt
Modellvaljare i Whisper Notes
Oppna Installningar for att vaxla mellan modeller:
- Parakeet V3 (standard) — Snabbast, bast for engelska och europeiska sprak
- Whisper Small — Lattviktion, over 100 sprak
- Whisper Large V3 Turbo — Mest traffsaker flersprakig modell
Alla modeller kor 100% lokalt pa din Mac. Inget internet, inget moln, ingen data lamnar din enhet.
Hur är det med Parakeet V2?
Om du använde V2 tidigare kanske du undrar hur det jämför sig. V2 var en modell enbart för engelska — och dess engelska precision är faktiskt lite bättre än V3 (WER 6,05 % vs 6,32 %). V3 byter den lilla skillnaden mot stöd för 25 språk. Båda är betydligt mer exakta än Whisper.
| Parakeet V2 | Parakeet V3 | Whisper Large V3 | |
|---|---|---|---|
| Engelsk WER | 6.05% | 6.32% | 7.44% |
| Språk | Endast engelska | 25 | 100+ |
Sammanfattningsvis: om du bara behöver engelska är både V2 och V3 utmärkta. V3 är standard i Whisper Notes eftersom flerspråksstöd är viktigt för de flesta användare — och skillnaden i engelsk precision är försumbar.
Testa sjalv
Parakeet v3 ar tillganglig nu i Mac-versionen — ladda bara ner senaste DMG:n. (Uppdatering: Parakeet finns nu även i den senaste iOS-versionen.)
Fragor eller feedback? Mejla support@whispernotes.app.