Cloudový přepis je mrtvý. Jen to ještě neví.
V přepisu dochází ke strukturální změně, které si většina lidí nevšimla. Dominantní model—odesílání zvuku na cloudové servery ke zpracování—zastarává. Ne proto, že by cloudovým službám chyběly funkce, ale proto, že se transformovala základní ekonomika a uživatelská zkušenost přepisu na zařízení. Whisper Large-v3 Turbo—809 milionů parametrů optimalizovaných pro inferenci—nyní běží na spotřebitelských zařízeních. Inženýrská realita se změnila a většina lidí si toho ještě nevšimla.
Whisper Notes: Profesionální offline přepis
Rovnice latence se změnila
Zvažte, co se stane, když stisknete "zastavit nahrávání" v aplikaci pro cloudový přepis: zvuk se zkomprimuje, nahraje na server, čeká ve frontě, zpracuje se a výsledky se stáhnou zpět. I za ideálních podmínek s dobrým připojením to přidává 2-5 sekund. V praxi často více.
S přepisem na zařízení je zpoždění mezi ukončením mluvení a zobrazením textu 200-500 milisekund. Tento rozdíl se zdá malý ve specifikacích. V používání je transformační. Nástroj se stává neviditelným—mluvíte, text se objevuje. Žádný indikátor načítání, žádné čekání, žádné kognitivní přerušení.
Naše naměřená data: Na M1 MacBook Air zpracovává Large-v3 Turbo audio 9-10× rychleji než přehrávání. 10minutová nahrávka je přepsána přibližně za 63 sekund. Toto není špičkový výkon, ale udržitelná, opakovatelná propustnost.
Hardwarově adaptivní architektura
Různé platformy Apple představují velmi odlišná výpočetní omezení. Whisper Notes implementuje adaptivní výběr modelu na základě zařízení:
Na Macu (Large-v3 Turbo, 809M parametrů)
MacBooky a stolní Macy mají tepelnou rezervu a výpočetní schopnosti Neural Engine pro efektivní běh plného modelu. To poskytuje maximální přesnost s tolerancí latence vhodnou pro desktopové výpočty.
Na iPhonu (optimalizované modely Whisper)
Mobilní zařízení musí vyvážit přesnost se spotřebou baterie a generováním tepla. Konkrétní architektura modelu se přizpůsobuje možnostem zařízení—novější iPhony spouštějí schopnější modely, zatímco starší zařízení používají optimalizované verze.
Tento kompromis je záměrný. Model, který vybije baterii za hodinu nebo způsobí přehřátí telefonu, není dobré řešení pro přepis, bez ohledu na to, jak je přesný. Optimalizujeme pro udržitelné používání na každé platformě.
Plně offline: Importujte zvuk a přepisujte přímo
Soukromí je architektura, ne funkce
Většina diskusí o soukromí přepisu se zaměřuje na zásady: kdo může přistupovat k vašim datům, jak dlouho jsou uchovávána, zda jsou šifrována. To jsou důležité otázky. Ale chybí jim zásadnější bod: nejsilnější architektura soukromí je taková, kde data nikdy neopustí vaše zařízení.
Když nahráváte a přepisujete s Whisper Notes, zvuk se nikdy nedotkne serveru. Ne našeho, ne OpenAI, ne Apple. Zpracování probíhá zcela na vašem iPhonu nebo Macu. To znamená:
- Žádné úniky dat možné, protože žádná data nejsou přenášena
- Žádná zásada ochrany osobních údajů, které důvěřovat, protože žádná data nejsou sbírána
- Žádné soudní příkazy možné, protože žádná data neexistují na serverech
- Žádné trénování AI na vašem hlase, protože žádná data nejsou sdílena
Pro profesionály pracující s citlivým materiálem—právníky, lékaře, novináře, terapeuty—je "nebudeme sdílet vaše data" zásadně slabší než "nikdy vaše data nemáme".
Kdy cloud stále dává smysl
Měli bychom být jasní o tom, co zpracování na zařízení nedělá. Pokud potřebujete:
- Spolupráci v reálném čase s více editory
- Přepis velmi dlouhých audio souborů (více než 2 hodiny) s zahříváním zařízení
- Přímou integraci s cloudovými službami jako Google Docs nebo Notion
- Přepis na starších zařízeních s omezeným výpočetním výkonem
Pak mohou cloudové služby lépe sloužit vašemu pracovnímu postupu. Kompromis zde je skutečný. Optimalizovali jsme pro individuální zachycování myšlenek, soukromí a nízkou latenci—ne pro kolaborativní pracovní postupy nebo firemní integrace.
Pravda o přesnosti
Tvrdení o přesnosti z benchmarků je obtížné porovnat mezi službami, protože testovací podmínky se liší. Co můžeme říci o Whisper Large-v3 Turbo:
Pro jasnou řeč v tichém prostředí je přesnost vynikající—srovnatelná s nejlepšími cloudovými službami. Pro konverzační řeč s přerušeními, falešnými starty a výplňovými slovy dobře zvládá přirozené jazykové vzorce. Pro technickou slovní zásobu, vlastní jména nebo doménově specifické termíny občas potřebuje vedení prostřednictvím počátečních pokynů.
Upřímná limitace: Model se vaši slovní zásobu automaticky neučí; musíte mu říct, co bude slyšet.
Srovnání ekonomických modelů
Cloudové služby pro přepis obvykle účtují za minutu nebo přes předplatné, protože jejich náklady rostou s používáním. Každá minuta, kterou přepíšete, spotřebovává čas serveru a šířku pásma.
| Služba | Cenový model | Náklady za 2 roky |
|---|---|---|
| Otter.ai | $16.99/měsíc | $407 |
| Rev | $0.25/minuta | Variabilní |
| Whisper Notes | $6.99 jednorázově | $6.99 |
Zpracování na zařízení má jinou strukturu nákladů. Jakmile vlastníte software, výpočet běží na hardwaru, který již máte. Žádné náklady na používání, žádné měsíční poplatky, žádné "překročili jste limit".
Whisper Notes používá model jednorázového nákupu: $6.99 za doživotní používání na všech vašich Apple zařízeních. Toto není akční cena nebo dočasná nabídka. Je to udržitelná ekonomika zpracování na zařízení—žádné servery k údržbě znamená žádné opakující se náklady k předání.
Praktické funkce
Několik funkcí v Whisper Notes existuje, protože skutečné vzorce používání odhalily jejich nezbytnost.
Widgety zamčené obrazovky
Uživatelé zachycující myšlenky během dne potřebují přístup s minimálním třením. Widget zamčené obrazovky vám umožňuje začít nahrávat bez odemykání telefonu, otevírání aplikace nebo navigace rozhraním.
Rychlý přístup k nahrávání přímo ze zamčené obrazovky
Počáteční pokyny
Modely Whisper někdy dělají chyby se specializovanou terminologií. Místo poskytování globální slovní zásoby, která nemusí odpovídat vaší doméně, vám umožňujeme specifikovat termíny, které často používáte. Model pak tyto termíny prioritizuje během přepisu.
Nakonfigurujte počáteční pokyny pro zlepšení rozpoznávání terminologie
Odstavce s časovými značkami
Dlouhé nahrávky se stávají nečitelnými jako souvislé bloky textu. Automatická segmentace do odstavců s volitelnými časovými značkami činí hodinové nahrávky navigovatelnými a referencovatelnými.
Profesionální formátování pro dlouhé přepisy s přesnými časovými značkami
Hromadný export
Uživatelé shromažďující mnoho nahrávek potřebují způsoby, jak je efektivně přesouvat. Hromadný export zvládá úkoly jako zálohování přepisů za měsíc nebo přenos všech poznámek z projektu.
Efektivně spravujte a exportujte více přepisů najednou
Vícejazyčnost: 80+ jazyků
Modely Whisper byly trénovány na vícejazyčných datech, takže podpora jazyků je vestavěná, ne přidaná později. Aplikace automaticky detekuje mluvený jazyk a přepisuje odpovídajícím způsobem.
Kvalita se liší podle jazyka—jazyky s více trénovacími daty (angličtina, španělština, němčina, francouzština, mandarínština, japonština) fungují lépe než méně zastoupené jazyky. Pro většinu hlavních jazyků je kvalita vynikající pro každodenní použití.
Technické podrobnosti
Device requirements: iPhone 12+ (čip A14) nebo Mac s čipem M-series.
Models: Parakeet V3 (103x realtime, 6.32% WER pro angličtinu). SenseVoice Small (52x realtime pro čínštinu, japonštinu, korejštinu, kantonštinu). Whisper Large V3 Turbo (100+ jazyků). Všechny tři běží lokálně na Macu.
Speed: Parakeet V3: 35 min zvuku za 20 sekund na M4 Pro. SenseVoice: 27 min čínského podcastu za 14 sekund. Whisper Turbo: 35 min za ~3 minuty.
AI Editing: Gemma 4 na zařízení opravuje interpunkci, odstraňuje výplňová slova (um, uh), generuje nadpisy a odpovídá na otázky o vašem přepisu.
Price: $6.99 jednorázově. Zkušební verze zdarma na Macu. Žádné předplatné, protože neprovozujeme servery.
Často kladené otázky
Lze přepsat řeč bez připojení k internetu?
Ano. Whisper Notes je offline transkripční software, který běží zcela na vašem zařízení. Všechny tři modely AI — Parakeet V3, SenseVoice a Whisper — zpracovávají zvuk lokálně pomocí Neural Engine vašeho Macu nebo čipu A-series vašeho iPhonu. Žádná data se nenahrávají, žádný server není kontaktován. Můžete si to otestovat zapnutím režimu v letadle.
Funguje OpenAI Whisper offline?
Ano. OpenAI vydalo Whisper jako open-source model, což znamená, že může běžet lokálně na vašem hardwaru. Whisper Notes balí Whisper Large V3 Turbo pro běh na Apple Silicon přes CoreML/Metal — bez Pythonu, bez příkazového řádku, bez internetu. Podporuje offline rozpoznávání řeči v 100+ jazycích.
Je Whisper Notes dostupný pro Windows nebo Android?
Zatím ne. Whisper Notes aktuálně podporuje Mac (M-series) a iPhone (12+). Pro Windows jsou alternativy jako faster-whisper (příkazový řádek) nebo Buzz (GUI). V budoucnu můžeme podporovat další platformy, ale Neural Engine Apple Silicon nabízí nejlepší lokální převod řeči na text pro uživatele Macu.
Existuje bezplatná offline transkripční aplikace?
Whisper Notes nabízí zkušební verzi zdarma na Macu — stáhněte DMG a zkuste bez časového omezení. Plný nákup je $6.99 jednorázově (bez předplatného). Pro srovnání, cloudové transkripční služby jako Otter.ai stojí $10-20/měsíčně. Za tři roky je to $360-720 vs $6.99 jednorázově.
Jak se Whisper Notes srovnává s MacWhisper nebo faster-whisper?
MacWhisper je Whisper frontend pouze pro Mac. faster-whisper je nástroj příkazového řádku. Whisper Notes zahrnuje tři modely (Parakeet V3, SenseVoice, Whisper), podporuje Mac i iPhone, nabízí celosystémový diktát klávesou Fn, widgety zamčené obrazovky, AI editaci na zařízení a hromadný export — vše za jednorázový nákup $6.99.