A felhőalapú átírás halott. Csak még nem tud róla.
Az elmúlt évben strukturális változást figyeltünk meg a hangátírási eszközökben. Korábban a felhőmegoldások uralták a piacot, mert nagyobb modelleket tudtak futtatni. Ez az előny eltűnt. Ma a MacBookod képes futtatni a 809 millió paraméteres Whisper Large-v3 Turbo-t. Az iPhone-od teljesen offline futtathat optimalizált modelleket. A mérnöki valóság megváltozott, és a legtöbb ember még nem vette észre.
Whisper Notes: Professzionális szintű offline átírás
A késleltetési egyenlet megváltozott
A felhőalapú átírásnak fix késleltetési minimuma van: hang feltöltés + szerver sor + modell következtetés + eredmény letöltés. Ideális hálózati körülmények között is ez több másodperces oda-vissza késleltetést jelent. Instabil hálózatnál akár tíz másodperc is lehet.
A helyi következtetés kiküszöböli ezeket a változókat. A Whisper Large-v3 Turbo Apple Silicon-on szinte valós idejű streaming átírást képes produkálni beszéd közben. Nincs feltöltési várakozás, hálózati ingadozás vagy szerver sor.
Mérési adataink: M1 MacBook Air-en a Large-v3 Turbo 9-10-szeres lejátszási sebességgel dolgozza fel a hangot. 10 perces felvétel körülbelül 63 másodperc alatt íródik át. Ez nem csúcsteljesítmény, hanem fenntartható, reprodukálható áteresztőképesség.
Hardver-adaptív architektúra
Nem minden eszköz képes ugyanazt a modellt futtatni. Ez nem korlátozás, hanem szándékos mérnöki tervezés.
Mac (Large-v3 Turbo, 809 millió paraméter)
A MacBook-ok és Mac-ek folyamatos tápellátással, aktív hűtéssel és elegendő memóriával rendelkeznek. Ez lehetővé teszi a teljes Large-v3 Turbo futtatását——ez a modell megtartja a Large-v3 pontosságát, miközben 4-5-szörösére gyorsítja a következtetést. Felhőszintű pontosság, helyi szintű sebesség.
iPhone (Optimalizált Whisper változatok)
A mobil chipek energia- és hőkorlátozások mellett működnek. Neural Engine-re optimalizált Whisper változatokat telepítünk, amelyek az energiakereten belül kiváló pontosságot tartanak fenn. A kompromisszum egyértelmű: a Large-v3 Turbo-hoz képest kisebb a modell méret, de nincs hálózati késleltetés, és a telefonon is következetesen pontosan működik.
Ez a hardver-adaptív megközelítés azt jelenti, hogy minden eszköz az általa hatékonyan futtatható optimális modellt futtatja. Nem "ugyanaz a modell mindenhol", hanem "minden eszköznek a megfelelő modell".
Teljesen offline: Hang importálása és közvetlen átírás
Az adatvédelem architektúra, nem funkció
A legtöbb felhőalapú átírási szolgáltatásnak van adatvédelmi szabályzata, amely megígéri az adatok védelmét. Az architektúra azonban irrelevánssá teszi az adatvédelmi szabályzatokat.
Abban a pillanatban, amikor a hang áthalad a hálózaton, elveszíted felette az irányítást. Naplózható, gyorsítótárazható, betanításra használható, beidézhető. Még a legjobb szándékú szabályzattal is, maga az adat léte a szerveren támadási felületet jelent.
A helyi feldolgozás megszünteti ezt a támadási felületet. A felvételek nem hagyják el az eszközt. Nincs átviteli napló, nincs szerveroldali tárolás, nincs harmadik fél hozzáférési lehetősége. Ez nem arról szól, hogy bízz bennünk, hanem arról, hogy megszüntetjük a bizalom szükségességét.
Gyakorlati hatás: Orvosi szakemberek, ügyvédek, újságírók——bárki, aki bizalmas beszélgetésekkel dolgozik——többé nem kell mérlegelniük az átírás kényelmét a titoktartási kötelezettséggel szemben. Az offline architektúra mindkettőt lehetővé teszi.
Mikor van még értelme a felhőnek
A helyi-első megközelítésünk mérnöki alapú, nem dogmatikus. Vannak forgatókönyvek, ahol a felhőmegoldások még mindig értelmesek:
- Többszemélyes valós idejű együttműködés: Ha 10 embernek kell egyszerre látnia a valós idejű átírást, a megosztott szerver ésszerű architektúrális választás.
- Korlátozott tárhelyű régebbi eszközök: Ha az eszköz nem tudja befogadni a modellfájlokat, a felhő működőképes alternatíva.
- Speciális nyelvi modellek: Rendkívül ritka nyelvekhez vagy dialektusokhoz csak felhőalapú modellek létezhetnek.
Azonban személyes felvételek, értekezlet-jegyzetek, hangüzenetek, interjúk esetén——a legtöbb ember legtöbb használati esetére——a helyi feldolgozás jobb késleltetésben, adatvédelemben és megbízhatóságban.
Az igazság a pontosságról
Gyakori tévhit: a nagyobb felhőmodellek nagyobb pontosságot jelentenek. 2022-ben ez igaz volt. Ma már nem.
A Whisper Large-v3 Turbo egy desztillált modell——a teljes Large-v3-ból tanult, megtartva a pontosságot, miközben csökkenti a számítási követelményeket. Szabványos benchmarkokon a teljes modellel egyenértékű szóhibaarányt ér el, miközben 4-5-ször gyorsabb a következtetés.
Őszinte korlátozás: A kódváltás (több nyelv keverése egy felvételen belül) még mindig kihívás. A modell automatikusan nem tanulja meg a szókincsedet; meg kell mondanod neki, mit fog hallani.
Gazdasági modell összehasonlítás
Az előfizetés-alapú felhőátírásnak folyamatos költségei vannak——percenkénti díjazás vagy havi díj. Ez olcsónak tűnhet az alkalmi felhasználóknak, de a rendszeres felhasználóknál gyorsan halmozódik.
| Szolgáltatás | Ármodell | 2 éves költség |
|---|---|---|
| Otter.ai | $16.99/hónap | $407 |
| Rev | $0.25/perc | Változó |
| Whisper Notes | $4.99 egyszeri | $4.99 |
A helyi feldolgozás gazdaságtana más: egyszeri vásárlás (az árunk $4.99), utána a marginális költség közel nulla. 10 perces és 10 órás felvétel plusz költsége ugyanaz: nulla.
Ez nem az "olcsóságról" szól, hanem a költségmodell kiszámíthatóságáról. Ha az eszköz nem számláz a használat alapján, szabadabban használhatod.
Gyakorlati funkciók
Minden általunk épített funkció megfigyelt problémákra adott válasz:
Zárolási képernyő widget
Megfigyeltük, hogy a legértékesebb felvételek gyakran hirtelen szükségesek——egy ötlet, egy véletlenszerű beszélgetés, egy váratlan fontos telefonhívás. Az egy érintéses felvétel a zárolási képernyőről megszünteti ezt az akadályt.
Felvétel közvetlenül a zárolási képernyőről, ne szalaszd el az inspirációt
Kezdeti promptok (Egyéni szókincs)
A Whisper kiválóan teljesít általános tartalmon, de minden szakterületnek vannak fel nem ismerhető kifejezései. Orvosi terminológia, jogi szaknyelv, belső elnevezések, műszaki rövidítések. A kezdeti promptok lehetővé teszik, hogy előre közöld a modellel: "ezek a szavak megjelennek, ismerd fel őket helyesen".
Szakmai kifejezések beállítása a felismerési pontosság javításához
Időbélyegzett bekezdések
A hosszú felvételek értéke gyakran specifikus szegmensekben rejlik. Időbélyegek nélkül az egész felvételt végig kell hallgatnod, hogy megtaláld azt az egy mondatot. Kattintható időbélyegekkel közvetlenül a releváns részhez ugorhatsz.
Időbélyegekkel pontos pozícionálás, gyors ugrás
Tömeges exportálás
Kutatók, újságírók, ügyvédek gyakran egyszerre tucatnyi felvételt dolgoznak fel. Az egyesével történő exportálás elfogadhatatlan munkafolyamat. A tömeges műveletek teszik ezt praktikussá.
Tömeges kiválasztás, egyszerre exportálás
Többnyelvű: 80+ nyelv
A Whisper betanítási adata 99 nyelvet fed le, de a lefedettség mélysége változó. A főbb nyelvek, mint az angol, kínai, spanyol, német, magyar, nagy mennyiségű betanítási adattal rendelkeznek, és a pontosság nagyon magas. A kisebb nyelvek teljesítménye valamivel gyengébb lehet, de általában használható.
Következtetés: Mérnöki választás
A Whisper Notes-t azért építettük, mert a helyi AI következtetés jobb a hangátírásnál——késleltetésben, adatvédelemben, megbízhatóságban és költségekben. Ez nem arról szól, hogy "felhő ellen" vagyunk vagy "hiszünk a helyi-elsőben". Felismerjük, hogy a technológiai feltételek megváltoztak, és ennek megfelelően építjük az eszközöket.
A Whisper Large-v3 Turbo Mac-en és az optimalizált modellek iPhone-on képviselik a legjobb egyensúlyt, amit a jelenlegi hardver ténylegesen futtatni tud. Ahogy a hardver tovább fejlődik——és fog——nagyobb modelleket telepítünk majd. De már ma is a helyi feldolgozás elegendő a legtöbb hangátírási feladathoz, és a kulcsfontosságú mutatókban kiemelkedő.
Ha ez az architektúrális megközelítés megfelel az igényeidnek, az alábbiakban kipróbálhatod.