Cloud transkripcija je mrtva. Samo to još ne zna.
Postoji strukturna promjena u transkripciji koju većina ljudi nije primijetila. Dominantni model—slanje audio datoteka na cloud servere za obradu—postaje zastario. Ne zato što cloud uslugama nedostaju značajke, već zato što su se fundamentalna ekonomija i korisničko iskustvo transkripcije na uređaju transformirali. Whisper Large-v3 Turbo—809 milijuna parametara optimiziranih za inferentnu brzinu—sada radi na potrošačkim uređajima. Inženjerska stvarnost se promijenila, a većina ljudi to još nije primijetila.
Whisper Notes: Profesionalna offline transkripcija
Jednadžba latencije se promijenila
Razmotrite što se događa kada pritisnete "zaustavi snimanje" u cloud transkripcijskoj aplikaciji: audio se komprimira, uploada na server, čeka u redu, obrađuje se, i rezultati se vraćaju. Čak i pod idealnim uvjetima s dobrom vezom, ovo dodaje 2-5 sekundi. U praksi, često više.
S transkripcijom na uređaju, kašnjenje između prestanka govora i pojave teksta je 200-500 milisekundi. Alat postaje nevidljiv—govorite, tekst se pojavljuje. Nema učitavanja, nema čekanja, nema kognitivnog prekida.
Naši izmjereni podaci: Na M1 MacBook Air, Large-v3 Turbo obrađuje audio 9-10× brže od reprodukcije. 10-minutna snimka transkribira se za otprilike 63 sekunde. Ovo nije vršna izvedba, već održiva, ponovljiva propusnost.
Hardverski adaptivna arhitektura
Različite Apple platforme predstavljaju vrlo različita računalna ograničenja. Whisper Notes implementira adaptivni odabir modela na temelju uređaja:
Na Mac-u (Large-v3 Turbo, 809M parametara)
MacBookovi i desktop Mac računala imaju termalnu marginu i računalne mogućnosti Neural Enginea za učinkovito pokretanje punog modela. Ovo pruža maksimalnu točnost s tolerancijom latencije prikladnom za desktop računalstvo.
Na iPhone-u (optimizirani modeli Whisper)
Mobilni uređaji moraju balansirati točnost s potrošnjom baterije i proizvodnjom topline. Konkretna arhitektura modela prilagođava se mogućnostima uređaja—noviji iPhone-i pokreću sposobnije modele dok stariji uređaji koriste optimizirane verzije.
Ovaj kompromis je namjeran. Model koji vam prazni bateriju za sat vremena ili uzrokuje pregrijavanje telefona nije dobro transkripcijsko rješenje, bez obzira koliko je točan. Optimiziramo za održivu upotrebu na svakoj platformi.
Potpuno offline: Uvezite audio i transkribirajte izravno
Privatnost je arhitektura, ne značajka
Većina rasprava o privatnosti transkripcije fokusira se na politike: tko ima pristup vašim podacima, koliko dugo se pohranjuju, jesu li kriptirani. To su važna pitanja. Ali propuštaju fundamentalniju poantu: najjača arhitektura privatnosti je ona gdje podaci nikad ne napuštaju vaš uređaj.
Kada snimate i transkribuirate s Whisper Notes, audio nikad ne dodiruje server. Ne naš, ne OpenAI-ev, ne Appleov. Obrada se odvija u potpunosti na vašem iPhone-u ili Mac-u. To znači:
- Nema mogućih proboja podataka jer se podaci ne prenose
- Nema politike privatnosti kojoj treba vjerovati jer se podaci ne prikupljaju
- Nema mogućih sudskih poziva jer podaci ne postoje na serverima
- Nema treniranja AI-a na vašem glasu jer se podaci ne dijele
Za profesionalce koji rukuju osjetljivim materijalom—odvjetnike, liječnike, novinare, terapeute—"nećemo dijeliti vaše podatke" je fundamentalno slabije od "nikad nemamo vaše podatke".
Kada oblak još uvijek ima smisla
Trebamo biti jasni o tome što obrada na uređaju ne radi. Ako trebate:
- Suradnju u stvarnom vremenu s više uređivača
- Transkripciju vrlo dugih audio datoteka (više od 2 sata) s brigama o zagrijavanju uređaja
- Izravnu integraciju s cloud uslugama poput Google Docsa ili Notiona
- Transkripciju na starijim uređajima s ograničenom procesorskom snagom
Tada bi cloud usluge mogle bolje poslužiti vaš tijek rada. Ovdje postoji pravi kompromis. Optimizirali smo za individualno hvatanje misli, privatnost i latenciju—ne za suradničke tijekove rada ili enterprise integracije.
Istina o točnosti
Tvrdnje o točnosti iz benchmarkova teško je usporediti između usluga jer se uvjeti testiranja razlikuju. Ono što možemo reći o Whisper Large-v3 Turbo:
Za jasan govor u tihim okruženjima, točnost je izvrsna—usporediva s najboljim cloud uslugama. Za konverzacijski govor s prekidima, lažnim počecima i poštapalicama, dobro se nosi s prirodnim jezičnim obrascima.
Iskreno ograničenje: Za tehničke rječnike, vlastita imena ili domenski specifične termine, ponekad treba usmjeravanje putem početnih upita. Model se vaš vokabular neće automatski naučiti; morate mu reći što će čuti.
Usporedba ekonomskih modela
Cloud-bazirane transkripcijske usluge obično naplaćuju po minuti ili putem pretplate jer njihovi troškovi rastu s korištenjem. Svaka minuta koju transkribuirate troši vrijeme servera i propusnost.
| Usluga | Model cijena | Trošak za 2 godine |
|---|---|---|
| Otter.ai | $16.99/mjesečno | $407 |
| Rev | $0.25/minuta | Varijabilno |
| Whisper Notes | $4.99 jednokratno | $4.99 |
Obrada na uređaju ima drugačiju strukturu troškova. Jednom kad posjedujete softver, računanje se odvija na hardveru koji već imate. Nema troškova korištenja, nema mjesečnih naknada, nema "premašili ste limit".
Whisper Notes koristi model jednokratne kupnje: $4.99 za doživotno korištenje na svim vašim Apple uređajima. Ovo nije promotivna cijena ili privremena ponuda. To je održiva ekonomija obrade na uređaju—nema servera za održavanje znači nema ponavljajućih troškova za prenijeti.
Praktične značajke
Razne značajke u Whisper Notes postoje jer su ih pravi obrasci korištenja učinili nužnima.
Widgeti zaključanog zaslona
Korisnici koji hvataju misli tijekom cijelog dana trebaju minimalnu frikciju. Widget zaključanog zaslona omogućuje vam da počnete snimati bez otključavanja telefona, otvaranja aplikacije ili navigiranja sučeljem.
Brz pristup snimanju izravno sa zaključanog zaslona
Početni upiti
Whisper modeli ponekad griješe sa specijaliziranom terminologijom. Umjesto globalnog vokabulara koji možda ne odgovara vašoj domeni, omogućujemo vam da specificirate termine koje često koristite. Model tada prioritetizira te termine tijekom transkripcije.
Konfigurirajte početne upite za poboljšanje prepoznavanja terminologije
Odlomci s vremenskim oznakama
Duge snimke postaju nečitljive kao kontinuirani blokovi teksta. Automatska segmentacija u odlomke s opcionim vremenskim oznakama čini satne snimke navigabilnima i referabilnima.
Profesionalno formatiranje za duge transkripcije s preciznim vremenskim oznakama
Skupni izvoz
Korisnici koji akumuliraju mnogo snimaka trebaju načine da ih efikasno premjeste. Skupni izvoz rješava zadatke poput sigurnosnog kopiranja mjesečnih transkripcija ili prijenosa svih bilješki projekta.
Efikasno upravljajte i izvozite više transkripcija odjednom
Višejezičnost: 80+ jezika
Whisper modeli su trenirani na višejezičnim podacima, tako da je jezična podrška ugrađena umjesto dodana naknadno. Aplikacija automatski detektira govoreni jezik i transkribira u skladu s tim.
Kvaliteta varira ovisno o jeziku—jezici s više podataka za treniranje (engleski, španjolski, njemački, francuski, mandarinski, japanski) performiraju bolje od manje zastupljenih jezika. Za većinu glavnih jezika, kvaliteta je izvrsna za svakodnevnu upotrebu.
Zaključak: Arhitekturni izbor
Pomak od cloud transkripcije prema transkripciji na uređaju nije samo tehnička promjena. To je drugačiji arhitekturni izbor o tome gdje bi se računanje trebalo odvijati, gdje bi podaci trebali boraviti i kakav odnos biste trebali imati sa svojim alatima.
Izgradili smo Whisper Notes oko ideje da hvatanje misli zaslužuje trenutačnu, privatnu obradu. Ako ova arhitektura odgovara načinu na koji radite, aplikacija je dostupna u App Storeu za iPhone i Mac. Jednokratna kupnja, doživotno korištenje, podaci se ne prikupljaju.