A Whisper-átírás azt jelenti, hogy a beszédet az OpenAI Whisper modelljével alakítjuk szöveggé — ez egy nyílt forráskódú AI-modell, amely futtatható felhőben, szerveren vagy teljes egészében a saját eszközödön. Ez az útmutató bemutatja, hogyan működik a Whisper, melyik modellméretet érdemes választani, valójában mennyire pontos, és mi a leggyorsabb módja annak, hogy offline futtasd Macen vagy iPhone-on.
Mi is pontosan a Whisper?
A Whisper egy automatikus beszédfelismerő (ASR) modell, amelyet az OpenAI 2022 szeptemberében adott ki MIT licenc alatt. Encoder-decoder transformer, amelyet több mint 680 000 óra többnyelvű hanganyagon tanítottak; nagyjából 100 nyelven képes átírásra, plusz angolra fordításra.
Ami számodra igazán számít: a modell súlyai nyíltak. A Google vagy az Amazon beszéd-API-jaival ellentétben a Whispernek nem kell más szerverén futnia. Egész ökoszisztéma épült a helyi futtatására — whisper.cpp, faster-whisper és natív alkalmazások, mint a Whisper Notes. Ez teszi lehetővé a valóban offline, privát átírást.
Whisper-modellméretek: melyiket használd
A Whisper hat fő méretben létezik. A nagyobb pontosabbat és lassabbat jelent:
| Modell | Paraméterek | Sebesség | Mire a legjobb |
|---|---|---|---|
| tiny | 39M | Leggyorsabb | Gyors vázlatok, gyenge hardver |
| base | 74M | Nagyon gyors | Egyszerű, tiszta hang |
| small | 244M | Gyors | Jó sebesség/pontosság arány mobilon |
| medium | 769M | Közepes | Ma már ritkán jó választás |
| large-v3 | 1.55B | Leglassabb | Maximális pontosság, nehéz hanganyag |
| large-v3-turbo | 809M | ~5x gyorsabb a large-v3-nál | Az alapértelmezett választás 2026-ban |
Szinte mindenkinek a large-v3-turbo a válasz: megtartja a large-v3 encoderét, de a decoder-rétegek számát 32-ről 4-re csökkenti, így a számítási igény töredékéért szinte azonos pontosságot ad. Részletesen bemértük itt: Whisper Large V3 Turbo vs V3.
Mennyire pontos a Whisper-átírás?
Tiszta angol hanganyagon a nagy modellek nagyjából 5–8%-os szóhibaarányt (WER) érnek el — ez a legtöbb gyakorlati célra összemérhető a professzionális emberi átírással. A pontosság romlik háttérzajnál, erős akcentusoknál, egymásba beszélésnél és kevés adattal rendelkező nyelveknél.
A Whisper egyik hírhedt hibája: hallucinációk csend közben. Az autoregresszív decoder néha ismétlődő mondatokat vagy feliratstáblistákat talál ki, amikor senki sem beszél. Az újabb modellek ezt orvosolják — az NVIDIA Parakeet V3-át kifejezetten beszéd nélküli hanganyagon is tanították, és tesztjeinkben nulla hallucinációt produkál (teljes Parakeet V3 vs Whisper benchmark).
Kínai, japán, koreai és kantoni nyelvhez egy specializált modell sebességben és központozásban is veri a Whispert: lásd SenseVoice vs Whisper CJK nyelvekhez.
5 módszer a Whisper-átírás futtatására
| Módszer | Költség | Adatvédelem | Beállítás |
|---|---|---|---|
| OpenAI API | Fizetés hangpercenként | A hang feltöltésre kerül | API-kulcs + kód |
| openai-whisper (referencia Python) | Ingyenes | 100% helyi | Python-környezet, GPU ajánlott |
| whisper.cpp / faster-whisper | Ingyenes | 100% helyi | Parancssor |
| Natív alkalmazás (Whisper Notes) | $6.99 egyszer, ingyenes próba Macen | 100% az eszközön | Nincs |
| Webes demóeszközök | Ingyenes szintek | A hang feltöltésre kerül | Nincs |
Az ökölszabály: ha a terminálban élsz, a faster-whisper kiváló. Ha terméket építesz, az API az észszerű. Ha csak privátban szeretnéd átíratni a felvételeidet anélkül, hogy Pythonhoz nyúlnál, használj natív alkalmazást — pontosan ezért léteznek a Whisper Mac-alkalmazások.
Szélesebb körben mérlegeled az offline eszközöket — Windows- és Android-lehetőségekkel együtt? Nézd meg a teljes offline beszéd-szöveg útmutatónkat.
Whisper vs újabb helyi modellek (2026)
A Whisper indította el a helyi átírás korszakát, de már nincs egyedül. Az alábbi sebességeket M4 Pro Macen mértük:
| Modell | Nyelvek | Sebesség | Erőssége |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | ~12x valós idő | A legszélesebb nyelvi lefedettség |
| Parakeet V3 | 25 (európai) | ~100x valós idő | 6,32% WER, nincs hallucináció csendnél |
| SenseVoice Small | zh, ja, ko, yue, en | ~52x valós idő | A legjobb kínaihoz, japánhoz, koreaihoz |
Mindhárom helyben fut a Whisper Notes-ban, és felvételenként válthatsz köztük. Az egymás melletti benchmarkokat a Whisper-modellek összehasonlító oldalán találod.
Így futtasd a Whisper-átírást offline Macen és iPhone-on
Nincs parancssor, nincs Python, nincs felhő:
- Töltsd le a Whisper Notes-t Macre (ingyenes próba) vagy iPhone-ra ($6.99 egyszer).
- Válassz modellt: Whisper Large V3 Turbo a széles nyelvi lefedettséghez, Parakeet V3 az angol sebességhez, SenseVoice a CJK nyelvekhez. Egyszer töltődik le, utána örökre működik offline.
- Rögzíts közvetlenül, diktálj rendszerszinten az Fn nyomva tartásával, vagy húzz be hang- és videófájlokat (MP3, WAV, M4A, MP4).
- A szöveg feldolgozás közben folyamatosan érkezik. Exportáld TXT-ként vagy SRT-ként.
Kételkedsz az „offline”-ban? Kapcsold be előbb a repülőgép üzemmódot. Az átírás teljes sebességgel fut — soha semmi nem kerül feltöltésre.
Mennyire pontos a Whisper-átírás magyarul? Melyik modellt válaszd?
A magyar egyike annak a 25 európai nyelvnek, amelyet a Parakeet V3 lefed — 6,32% WER-osztályú pontossággal és a Whispernél nagyjából 10x nagyobb sebességgel. Ezért a Parakeet V3 a Whisper Notes alapértelmezett modellje, és magyar felvételekhez ez a legjobb választás. A Whisper Large V3 Turbo (100+ nyelv, ~1,5 GB) jó tartalék nagyon nehéz hanganyaghoz vagy olyan nyelvekhez, amelyeket a Parakeet nem fed le. Mindkét modell teljesen offline fut Macen és iPhone-on is.
Gyakran ismételt kérdések
Ingyenes a Whisper-átírás?
Maga a modell ingyenes és nyílt forráskódú (MIT licenc). A parancssori eszközökkel — például whisper.cpp — való futtatás nem kerül semmibe, de beállítást igényel. Az OpenAI API-ja hangpercenként számláz. A natív alkalmazások kis díjért csomagolják a modelleket — a Whisper Notes egyszeri $6.99, Macen ingyenes próbával.
Futhat a Whisper-átírás offline?
Igen — pont ez a nyílt súlyok lényege. Ha a modellfájl már az eszközödön van, nincs szükség internetre. A Whisper Notes a Whisper Large V3 Turbót Apple Siliconon futtatja CoreML/Metal segítségével, teljesen offline. Repülőgép üzemmóddal ellenőrizheted.
Melyik Whisper-modell a legpontosabb?
A large-v3 nyers pontossága a legjobb. A large-v3-turbo a WER-ben töredékszázalékon belül hozza ugyanazt, miközben körülbelül 5x gyorsabban fut — ezért ez ma az alapértelmezett a legtöbb eszközben.
Támogatja a Whisper a nyelvemet?
A Whisper nagyjából 100 nyelvet fed le, a sok adattal rendelkezőkben a legerősebb (angol, spanyol, német, francia stb.). Kínaihoz, japánhoz, koreaihoz és kantonihoz a SenseVoice jobb központozást és sokkal nagyobb sebességet nyújt Apple Siliconon.
Van Whisper-átíró alkalmazás iPhone-ra?
Igen. A Whisper Notes az iPhone Neural Engine-jére optimalizált Whisper-modelleket futtat (iPhone 12 és újabb) — rögzíts, importálj a Hangjegyzetekből vagy a Fájlokból, és írj át mindent az eszközön $6.99-ért, előfizetés nélkül.