Fran och med version 1.3.2 levereras Whisper Notes for Mac med NVIDIA Parakeet TDT 0.6B som standardmodell for tal. Den ar 10x snabbare an Whisper Large V3 Turbo for engelska, och mer traffsaker. Whisper-modellerna finns kvar om du behover andra sprak.
Varfor vi bytte standardmodell
Whisper ar fantastiskt, men det designades som en allroundmodell. Det klarar over 100 sprak, oversatter, genererar tidsstamplar — en riktig schweizisk armekniv. Nackdelen ar hastigheten. For engelsk diktamen, dar du bara vill ha ord pa skarmen snabbt, ar det overkill.
Det som verkligen storde mig: nar jag anvande systemomfattande Fn-tangent-diktamen med Whisper och pratade i ungefar en minut, fick jag vanta 3–5 sekunder pa att texten skulle dyka upp. Den pausen bryter flodet. Du slutar prata, du vantar, du stirrar pa markoren — det tar dodal pa magin med rostskrivning.
Parakeet andrade allt. Hastigheten ar sa hog att texten dyker upp i samma ogonblick du slutar prata. Du pratar, och orden ar bara dar. Nar du valt upplevt den kanslan — det dar somlosa, vantfria flodet — ar det riktigt svart att ga tillbaka till Whisper.
Hur snabb ar Parakeet V3?
Siffror sager mer an ord. Har ar en riktig jamforelse med en 35 minuter lang ljudfil pa samma Mac:
| Modell | 35 min ljud |
|---|---|
| Whisper Large V3 Turbo | 3 minuter |
| Parakeet TDT 0.6B v3 | 18 sekunder |
Det ar 10x snabbare. Och eftersom modellen ar mindre (600M mot 800M parametrar) anvander den ocksa mindre minne och mindre batteri.
Vad som gor Parakeet v3 sa snabb
Whisper lyssnar pa ljud som om du laste en bok hogt — ord for ord, frame for frame, utan att nagonsin hoppa framat. Aven under tystnad processar den fortfarande och gissar vad som kommer harnast. Grundligt, men langsamt.
Parakeet tar ett fundamentalt annorlunda angreppssatt. Den komprimerar ljudsignalen 8x innan bearbetning, sa modellen bara ser det som spelar roll. Sedan, istallet for att mala igenom varje enskild frame, forutsager den inte bara vilket ord du sa, utan ocksa hur lange det ordet varar — och hoppar framat. Tystnad? Hoppas over helt. En lang vokal? En enda forutsagelse istallet for dussintals.
Resultatet ar en modell som bearbetar tal pa samma satt som din hjarna — fokuserar pa orden, ignorerar pauserna. Darfor ar den 10x snabbare med farre parametrar och hogre traffsakerhet.
Benchmarks: Parakeet v3 mot Whisper
Parakeet v3 matchar eller slar modeller som ar 2-4x storre pa FLEURS-, CoVoST- och MLS-benchmarks
Pa Hugging Face Open ASR Leaderboard toppar Parakeet v3 listan med bara 600M parametrar — mindre an halften av Whisper Large V3:s 1,55B:
| Modell | Parametrar | Snitt WER | Hastighet (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
Lagre WER = farre fel. Hogre RTFx = snabbare. Parakeet vinner pa bada fronter. Med 600M parametrar ar det ocksa den minsta modellen pa listan — vilket innebar att den kor vackert pa Apple Silicon med minimalt minnes- och batteriforbrukning.
Inga fler hallucinationer
Om du har anvant Whisper for diktamen har du formodligen sett den hallucinera under tystnad — upprepa fraser, hitta pa ord eller plotsligt spy ut "Subtitles by Amara.org" fran ingenstans. Det hander for att Whispers autoregressiva dekoder alltid forvanter sig att producera text, aven nar det inte finns nagot att transkribera.
NVIDIA tranade Parakeet pa 36 000 timmar rent icke-tal-ljud (bakgrundsljud, hostningar, tystnad) kopplat till tomma strangmal. Modellen larde sig hur tystnad later och haller tyst. For systemomfattande diktamen som alltid ar pa ar det en gamechanger — ingen skraptext langre nar du pauser for att tanka.
Sprak som Parakeet stodjer
Parakeet v3 stodjer 25 sprak: bulgariska, danska, engelska, estniska, finska, franska, grekiska, italienska, kroatiska, lettiska, litauiska, maltesiska, nederlandska, polska, portugisiska, rumanska, ryska, slovakiska, slovenska, spanska, svenska, tjeckiska, tyska, ukrainska och ungerska.
Det tacker storsta delen av Europa, men stodjer inte kinesiska, japanska, koreanska, arabiska eller hindi. Darfor beholl vi Whisper-modellerna som nedladdningsbara alternativ. Om du dikterar pa japanska eller mandarin, valj Whisper Large V3 Turbo i modellvaljaren. For engelska och europeiska sprak ar Parakeet v3 helt enkelt den battre motorn.
Modellvaljare: Parakeet V3 (standard), Whisper Small och Whisper Large V3 Turbo — alla kor lokalt
Modellvaljare i Whisper Notes
Oppna Installningar for att vaxla mellan modeller:
- Parakeet V3 (standard) — Snabbast, bast for engelska och europeiska sprak
- Whisper Small — Lattviktion, over 100 sprak
- Whisper Large V3 Turbo — Mest traffsaker flersprakig modell
Alla modeller kor 100% lokalt pa din Mac. Inget internet, inget moln, ingen data lamnar din enhet.
Testa sjalv
Parakeet v3 ar tillganglig nu i Mac-versionen — ladda bara ner senaste DMG:n. Om feedbacken ar positiv tar vi Parakeet till iOS-versionen i en framtida uppdatering.
Fragor eller feedback? Mejla support@whispernotes.app.