Molntranskription är död. Den vet bara inte om det ännu.
Under det senaste året har vi observerat en strukturell förändring i verktyg för rösttranskription. Molnlösningar dominerade tidigare marknaden eftersom de kunde köra större modeller. Den fördelen har försvunnit. Nu kan din MacBook köra Whisper Large-v3 Turbo med 809 miljoner parametrar. Din iPhone kan köra optimerade modeller helt offline. Den ingenjörsmässiga verkligheten har förändrats, och de flesta har inte märkt det ännu.
Whisper Notes: Professionell offline-transkription
Latensekvationen har förändrats
Molntranskription har ett fast latensgolv: ljuduppladdning + serverkö + modellinferens + resultatnedladdning. Även under ideala nätverksförhållanden innebär detta flera sekunders rundresa. Med instabilt nätverk kan det bli tiotals sekunder.
Lokal inferens eliminerar dessa variabler. Whisper Large-v3 Turbo på Apple Silicon kan leverera strömmande transkription nästan i realtid medan du talar. Ingen väntan på uppladdning, ingen nätverksjitter, inga serverköer.
Våra mätdata: På M1 MacBook Air bearbetar Large-v3 Turbo ljud med 9-10x uppspelningshastighet. En 10-minuters inspelning transkriberas på cirka 63 sekunder. Detta är inte topprestanda, utan hållbar och reproducerbar genomströmning.
Hårdvaruadaptiv arkitektur
Inte alla enheter kan köra samma modell. Detta är inte en begränsning, utan avsiktlig ingenjörsdesign.
Mac (Large-v3 Turbo, 809 miljoner parametrar)
MacBooks och Mac-datorer har kontinuerlig strömförsörjning, aktiv kylning och tillräckligt med minne. Detta möjliggör körning av fullständig Large-v3 Turbo—en modell som behåller Large-v3:s noggrannhet samtidigt som inferenshastigheten förbättras 4-5x. Du får molnnivå noggrannhet med lokal hastighet.
iPhone (optimerade Whisper-varianter)
Mobila chip arbetar under kraft- och värmebegränsningar. Vi distribuerar Whisper-varianter optimerade för Neural Engine som upprätthåller utmärkt noggrannhet inom kraftbudgeten. Avvägningen är tydlig: mindre modellstorlek jämfört med Large-v3 Turbo, men ingen nätverksfördröjning och konsekvent noggrannhet på telefonen.
Detta hårdvaruadaptiva tillvägagångssätt innebär att varje enhet kör den optimala modellen den effektivt kan köra. Inte "samma modell överallt", utan "rätt modell för varje enhet".
Helt offline: Importera ljud och transkribera direkt
Integritet är arkitektur, inte en funktion
De flesta molntranskriptionstjänster har integritetspolicyer som lovar att skydda dina data. Men arkitekturen gör integritetspolicyer irrelevanta.
I samma ögonblick som ljud passerar nätverket förlorar du kontrollen över det. Det kan loggas, cachas, användas för träning eller stämmas. Även med policyer med bästa avsikter är datans existens på en server i sig en attackyta.
Lokal bearbetning eliminerar denna attackyta. Inspelningar lämnar aldrig din enhet. Inga överföringsloggar, ingen serverlagring, ingen möjlighet till tredjepartsåtkomst. Det handlar inte om att lita på oss, utan om att eliminera behovet av förtroende.
Praktisk påverkan: Vårdpersonal, advokater, journalister—alla som hanterar känsliga samtal—behöver inte längre väga transkriptionsbekvämlighet mot sekretesskyldigheter. Offline-arkitektur gör båda möjliga.
När molnet fortfarande är meningsfullt
Vår ståndpunkt för lokal-först baseras på ingenjörskonst, inte dogm. Det finns scenarier där molnlösningar fortfarande är meningsfulla:
- Realtidssamarbete med flera personer: Om 10 personer behöver se realtidstranskription samtidigt är en delad server ett rimligt arkitekturval.
- Äldre enheter med lagringsbegränsningar: Om din enhet inte kan rymma modellfiler är molnet ett genomförbart alternativ.
- Specialiserade språkmodeller: Extremt nischade språk eller dialekter kan ha molnexklusiva modeller.
Men för personliga inspelningar, mötesanteckningar, röstmemon, intervjuer—de flesta användningsfall för de flesta människor—vinner lokal bearbetning på latens, integritet och tillförlitlighet.
Sanningen om noggrannhet
En vanlig missuppfattning: större molnmodeller betyder högre noggrannhet. Det var sant 2022. Inte längre.
Whisper Large-v3 Turbo är en destillerad modell—tränad från fullständig Large-v3, bevarar noggrannhet samtidigt som beräkningskraven minskas. På standardbenchmarks uppnår den jämförbar ordfelfrekvens med fullmodellen samtidigt som inferenshastigheten är 4-5x snabbare.
Ärlig begränsning: Kodväxling (att blanda flera språk i en inspelning) är fortfarande utmanande. Modellen lär sig inte automatiskt ditt ordförråd; du måste berätta vad den kommer att höra.
Jämförelse av ekonomiska modeller
Prenumerationsbaserad molntranskription har löpande kostnader—debitering per minut eller månadsavgifter. Detta kan verka billigt för tillfälliga användare, men ackumuleras snabbt för tunga användare.
| Tjänst | Prismodell | 2-årskostnad |
|---|---|---|
| Otter.ai | $16.99/månad | $407 |
| Rev | $0.25/minut | Variabel |
| Whisper Notes | $6.99 engångs | $6.99 |
Ekonomin för lokal bearbetning är annorlunda: ett engångsköp (vårt pris är $6.99), sedan är marginalkostnaden nästan noll. Den extra kostnaden för att transkribera en 10-minutersinspelning kontra en 10-timmarsinspelning är densamma: noll.
Det handlar inte om att vara "billig", utan om förutsägbarheten i kostnadsmodellen. När ett verktyg inte debiterar per användning kan du använda det friare.
Praktiska funktioner
Varje funktion vi bygger är ett svar på ett observerat problem:
Låsskärmswidget
Vi observerade att de mest värdefulla inspelningarna ofta behövs plötsligt—ett ögonblick av inspiration, ett oväntat samtal, ett oväntat viktigt telefonsamtal. Inspelning med ett tryck från låsskärmen eliminerar denna barriär.
Spela in direkt från låsskärmen, missa aldrig inspirationen
Inledande promptar (anpassat ordförråd)
Whisper presterar utmärkt på allmänt innehåll, men varje område har termer den inte känner igen. Medicinska termer, juridisk terminologi, interna namn, tekniska förkortningar. Inledande promptar låter dig berätta för modellen i förväg: "dessa ord kommer att dyka upp, känn igen dem korrekt".
Ställ in specialiserade termer för att förbättra igenkänningsnoggrannheten
Tidsstämplade stycken
Värdet av långa inspelningar ligger ofta i specifika segment. Utan tidsstämplar måste du lyssna igenom hela inspelningen för att hitta den ena meningen. Med klickbara tidsstämplar kan du hoppa direkt till relevant del.
Lokalisera exakt med tidsstämplar, hoppa snabbt
Massexport
Forskare, journalister och advokater bearbetar ofta dussintals inspelningar åt gången. Att exportera en i taget är ett oacceptabelt arbetsflöde. Massoperationer gör detta praktiskt.
Välj flera, exportera allt på en gång
Flerspråkigt: 80+ språk
Whispers träningsdata täcker 99 språk, men djupet av täckning varierar. Stora språk som engelska, kinesiska, spanska, tyska och japanska har massiva mängder träningsdata och mycket hög noggrannhet. Mindre språk kan prestera något sämre, men är vanligtvis användbara.
Tekniska detaljer
Device requirements: iPhone 12+ (A14-chip) eller Mac med M-seriechip.
Models: Parakeet V3 (103x realtid, 6,32% WER för engelska). SenseVoice Small (52x realtid för kinesiska, japanska, koreanska, kantonesiska). Whisper Large V3 Turbo (100+ språk). Alla tre körs lokalt på Mac.
Speed: Parakeet V3: 35 min ljud på 20 sekunder på M4 Pro. SenseVoice: 27 min kinesisk podcast på 14 sekunder. Whisper Turbo: 35 min på ~3 minuter.
AI Editing: Gemma 4 på enheten korrigerar skiljetecken, tar bort utfyllnadsord (öh, äh), genererar titlar och svarar på frågor om din transkription.
Price: $6.99 engångsavgift. Gratis provperiod på Mac. Inget abonnemang eftersom vi inte driver servrar.
Vanliga frågor
Kan transkription göras utan internetanslutning?
Ja. Whisper Notes är en offline-transkriptionsprogramvara som körs helt på din enhet. Alla tre AI-modeller — Parakeet V3, SenseVoice och Whisper — bearbetar ljud lokalt med din Macs Neural Engine eller din iPhones A-seriechip. Ingen data laddas upp, ingen server kontaktas. Du kan testa detta själv genom att aktivera flygplansläge.
Fungerar OpenAI Whisper offline?
Ja. OpenAI släppte Whisper som en öppen källkodsmodell, vilket innebär att den kan köras lokalt på din hårdvara. Whisper Notes paketerar Whisper Large V3 Turbo för att köras på Apple Silicon via CoreML/Metal — ingen Python, ingen kommandorad, inget internet behövs. Stöder offline-taligenkänning på 100+ språk.
Finns Whisper Notes för Windows eller Android?
Inte ännu. Whisper Notes stöder för närvarande Mac (M-serie) och iPhone (12+). För Windows inkluderar alternativ faster-whisper (kommandorad) eller Buzz (GUI-wrapper). Vi kan stödja andra plattformar i framtiden, men Apple Silicons Neural Engine ger Mac-användare den bästa lokala tal-till-text-upplevelsen just nu.
Finns det en gratis offline-transkriptionsapp?
Whisper Notes erbjuder en gratis provperiod på Mac — ladda ner DMG och prova utan tidsbegränsning. Det fullständiga köpet är $6.99 engångsavgift (inget abonnemang). Som jämförelse kostar molntranskriptionstjänster som Otter.ai $10-20/månad. Under tre år blir det $360-720 mot $6.99 engångsavgift.
Hur jämförs Whisper Notes med MacWhisper eller faster-whisper?
MacWhisper är ett Whisper-gränssnitt enbart för Mac. faster-whisper är ett kommandoradsverktyg. Whisper Notes inkluderar tre modeller (Parakeet V3, SenseVoice, Whisper), stöder både Mac och iPhone, erbjuder systemomfattande diktering med Fn-tangenten, låsskärmswidgetar, AI-redigering på enheten och massexport — allt för ett engångsköp på $6.99.