Offline Transkripcia
Prečo to konečne funguje
Roky znamenala lokálna transkripcia pomalšie a horšie. To sa zmenilo.

Trochu kontextu
Pred pár rokmi, ak ste chceli presnú transkripciu, museli ste nahrať audio na server niekoho iného. Lokálne možnosti existovali, ale boli zreteľne horšie. Kompromis bol skutočný.
Potom sa stalo niekoľko vecí. OpenAI vydala Whisper ako otvorený model. Apple začal dodávať čipy s dedikovaným AI hardvérom. Zrazu mohli rovnaké modely, ktoré poháňali cloudové služby, bežať na notebooku.
Začali sme stavať Whisper Notes približne v tom čase, hlavne preto, že sme to sami potrebovali. Ukázalo sa, že veľa ľudí hľadalo to isté.
Čo sa zmenilo
Tri veci kedysi robili z cloudovej transkripcie jasnú voľbu. Všetky tri sa posunuli.
Výpočtový výkon
AI modely, ktoré robia transkripciu, sú veľké—stovky miliónov parametrov. Ich beh býval pomalý a vybíjal batériu na spotrebiteľskom hardvéri.
Neural Engine od Apple to zmenil. Je to dedikovaný čip pre AI úlohy a je v každom Macu série M a novom iPhone. Whisper Large v3 Turbo teraz pohodlne beží na MacBooku Air.
Na telefónoch používame menšie modely optimalizované pre mobilné čipy. Nie sú také presné ako veľký model, ale stále lepšie ako väčšina vstavaného diktovania.
Presnosť
Toto nás prekvapilo. Očakávali sme, že lokálne modely budú "dosť dobré". V skutočnosti sú dosť dobré.
Whisper Large v3 má nižšiu chybovosť slov ako väčšina systémového diktovania. A rozdiel medzi lokálnymi a cloudovými API sa dosť zmenšil. Pre väčšinu prípadov použitia si pravdepodobne nevšimnete rozdiel.
To mení kalkuláciu. Ak je presnosť porovnateľná, hlavný dôvod nahrávať audio mizne.
Súkromie
Nie sme tu, aby sme vás strašili cloudovými službami. Väčšina z nich zaobchádza s dátami zodpovedne.
Ale je rozdiel medzi "sľubujú, že to nezneužijú" a "nikdy to nemali". Váš hlas je biometrický údaj—na rozdiel od hesla ho nemôžete zmeniť, ak sa niečo pokazí.
S lokálnou transkripciou zostáva vaše audio na vašom zariadení. Nie zašifrované-a-potom-nahrané. Jednoducho... zostáva. Pre niektorých ľudí to veľa znamená. Pre iných možno nie. Stavali sme pre prvú skupinu.
Kedy čo použiť
Lokálne nie je vždy správna voľba. Takto o tom premýšľame.
Potrebujete spoluprácu v reálnom čase?
Cloudové nástroje ako Otter sú na to stavané. Viac ľudí upravujúcich ten istý prepis potrebuje centrálny server. To je dobré využitie cloudu.
Používate Windows alebo Android?
Lokálna AI je na týchto platformách ťažšia—hardvérová podpora nie je taká vyspelá. Dragon funguje pre Windows. Na Androide sú cloudové služby zvyčajne praktická voľba.
Potrebujete vedieť, kto čo povedal?
Identifikácia rečníkov (diarizácia) vyžaduje ďalšie modely. Cloudové služby ako Rev to zvládajú dobre. Lokálne nástroje dobehujú, ale je to stále oblasť, kde má cloud výhodu.
Len potrebujete súkromnú, presnú transkripciu?
Na to sme sa zamerali. Ak sú vaše hlavné obavy súkromie a presnosť, a ste na hardvéri Apple, lokálne teraz funguje dobre.
Čo robí Whisper Notes
Spúšťa Whisper Large v3 Turbo na vašom Macu, alebo menší optimalizovaný model na vašom iPhone. Vaše audio nikdy neopustí zariadenie.
Na Macu beží transkripcia približne 10-15 krát rýchlejšie ako v reálnom čase pomocou Neural Engine. Hodinová nahrávka trvá pár minút. Na iPhone je to pomalšie, ale stále praktické pre väčšinu nahrávok.
$4.99 jednorazovo, pre obe platformy. Neprevádzkujeme servery, takže nepotrebujeme predplatné. To je všetko.
V skratke
Lokálna transkripcia bývala kompromisom. Teraz je to rozumná predvolená voľba pre veľa ľudí.
Ak potrebujete spoluprácu alebo pracujete na platformách mimo Apple, cloudové služby stále dávajú zmysel. Ak hlavne chcete presnú, súkromnú transkripciu na Macu alebo iPhone, lokálna možnosť sa veľmi zlepšila.
Sami používame Whisper Notes každý deň. Robí to, čo sme potrebovali.
Vyskúšajte to
Môžete to otestovať v režime lietadlo, ak chcete overiť, že sa nič nenahráva. Všetko funguje rovnako.
App Store • $4.99 • Mac a iPhone
Jeden nákup pokrýva obe platformy.