Whisper-átírás: a teljes útmutató a hangból szöveg készítéshez (2026)

2026. július 2.
·
9 min read
·Whisper Notes Team

A Whisper-átírás azt jelenti, hogy a beszédet az OpenAI Whisper modelljével alakítjuk szöveggé — ez egy nyílt forráskódú AI-modell, amely futtatható felhőben, szerveren vagy teljes egészében a saját eszközödön. Ez az útmutató bemutatja, hogyan működik a Whisper, melyik modellméretet érdemes választani, valójában mennyire pontos, és mi a leggyorsabb módja annak, hogy offline futtasd Macen vagy iPhone-on.

Mi is pontosan a Whisper?

A Whisper egy automatikus beszédfelismerő (ASR) modell, amelyet az OpenAI 2022 szeptemberében adott ki MIT licenc alatt. Encoder-decoder transformer, amelyet több mint 680 000 óra többnyelvű hanganyagon tanítottak; nagyjából 100 nyelven képes átírásra, plusz angolra fordításra.

Ami számodra igazán számít: a modell súlyai nyíltak. A Google vagy az Amazon beszéd-API-jaival ellentétben a Whispernek nem kell más szerverén futnia. Egész ökoszisztéma épült a helyi futtatására — whisper.cpp, faster-whisper és natív alkalmazások, mint a Whisper Notes. Ez teszi lehetővé a valóban offline, privát átírást.

Whisper-modellméretek: melyiket használd

A Whisper hat fő méretben létezik. A nagyobb pontosabbat és lassabbat jelent:

Modell Paraméterek Sebesség Mire a legjobb
tiny 39M Leggyorsabb Gyors vázlatok, gyenge hardver
base 74M Nagyon gyors Egyszerű, tiszta hang
small 244M Gyors Jó sebesség/pontosság arány mobilon
medium 769M Közepes Ma már ritkán jó választás
large-v3 1.55B Leglassabb Maximális pontosság, nehéz hanganyag
large-v3-turbo 809M ~5x gyorsabb a large-v3-nál Az alapértelmezett választás 2026-ban

Szinte mindenkinek a large-v3-turbo a válasz: megtartja a large-v3 encoderét, de a decoder-rétegek számát 32-ről 4-re csökkenti, így a számítási igény töredékéért szinte azonos pontosságot ad. Részletesen bemértük itt: Whisper Large V3 Turbo vs V3.

Mennyire pontos a Whisper-átírás?

Tiszta angol hanganyagon a nagy modellek nagyjából 5–8%-os szóhibaarányt (WER) érnek el — ez a legtöbb gyakorlati célra összemérhető a professzionális emberi átírással. A pontosság romlik háttérzajnál, erős akcentusoknál, egymásba beszélésnél és kevés adattal rendelkező nyelveknél.

A Whisper egyik hírhedt hibája: hallucinációk csend közben. Az autoregresszív decoder néha ismétlődő mondatokat vagy feliratstáblistákat talál ki, amikor senki sem beszél. Az újabb modellek ezt orvosolják — az NVIDIA Parakeet V3-át kifejezetten beszéd nélküli hanganyagon is tanították, és tesztjeinkben nulla hallucinációt produkál (teljes Parakeet V3 vs Whisper benchmark).

Kínai, japán, koreai és kantoni nyelvhez egy specializált modell sebességben és központozásban is veri a Whispert: lásd SenseVoice vs Whisper CJK nyelvekhez.

5 módszer a Whisper-átírás futtatására

Módszer Költség Adatvédelem Beállítás
OpenAI API Fizetés hangpercenként A hang feltöltésre kerül API-kulcs + kód
openai-whisper (referencia Python) Ingyenes 100% helyi Python-környezet, GPU ajánlott
whisper.cpp / faster-whisper Ingyenes 100% helyi Parancssor
Natív alkalmazás (Whisper Notes) $6.99 egyszer, ingyenes próba Macen 100% az eszközön Nincs
Webes demóeszközök Ingyenes szintek A hang feltöltésre kerül Nincs

Az ökölszabály: ha a terminálban élsz, a faster-whisper kiváló. Ha terméket építesz, az API az észszerű. Ha csak privátban szeretnéd átíratni a felvételeidet anélkül, hogy Pythonhoz nyúlnál, használj natív alkalmazást — pontosan ezért léteznek a Whisper Mac-alkalmazások.

Szélesebb körben mérlegeled az offline eszközöket — Windows- és Android-lehetőségekkel együtt? Nézd meg a teljes offline beszéd-szöveg útmutatónkat.

Whisper vs újabb helyi modellek (2026)

A Whisper indította el a helyi átírás korszakát, de már nincs egyedül. Az alábbi sebességeket M4 Pro Macen mértük:

Modell Nyelvek Sebesség Erőssége
Whisper Large V3 Turbo 100+ ~12x valós idő A legszélesebb nyelvi lefedettség
Parakeet V3 25 (európai) ~100x valós idő 6,32% WER, nincs hallucináció csendnél
SenseVoice Small zh, ja, ko, yue, en ~52x valós idő A legjobb kínaihoz, japánhoz, koreaihoz

Mindhárom helyben fut a Whisper Notes-ban, és felvételenként válthatsz köztük. Az egymás melletti benchmarkokat a Whisper-modellek összehasonlító oldalán találod.

Így futtasd a Whisper-átírást offline Macen és iPhone-on

Nincs parancssor, nincs Python, nincs felhő:

  1. Töltsd le a Whisper Notes-t Macre (ingyenes próba) vagy iPhone-ra ($6.99 egyszer).
  2. Válassz modellt: Whisper Large V3 Turbo a széles nyelvi lefedettséghez, Parakeet V3 az angol sebességhez, SenseVoice a CJK nyelvekhez. Egyszer töltődik le, utána örökre működik offline.
  3. Rögzíts közvetlenül, diktálj rendszerszinten az Fn nyomva tartásával, vagy húzz be hang- és videófájlokat (MP3, WAV, M4A, MP4).
  4. A szöveg feldolgozás közben folyamatosan érkezik. Exportáld TXT-ként vagy SRT-ként.

Kételkedsz az „offline”-ban? Kapcsold be előbb a repülőgép üzemmódot. Az átírás teljes sebességgel fut — soha semmi nem kerül feltöltésre.

Mennyire pontos a Whisper-átírás magyarul? Melyik modellt válaszd?

A magyar egyike annak a 25 európai nyelvnek, amelyet a Parakeet V3 lefed — 6,32% WER-osztályú pontossággal és a Whispernél nagyjából 10x nagyobb sebességgel. Ezért a Parakeet V3 a Whisper Notes alapértelmezett modellje, és magyar felvételekhez ez a legjobb választás. A Whisper Large V3 Turbo (100+ nyelv, ~1,5 GB) jó tartalék nagyon nehéz hanganyaghoz vagy olyan nyelvekhez, amelyeket a Parakeet nem fed le. Mindkét modell teljesen offline fut Macen és iPhone-on is.

Gyakran ismételt kérdések

Ingyenes a Whisper-átírás?

Maga a modell ingyenes és nyílt forráskódú (MIT licenc). A parancssori eszközökkel — például whisper.cpp — való futtatás nem kerül semmibe, de beállítást igényel. Az OpenAI API-ja hangpercenként számláz. A natív alkalmazások kis díjért csomagolják a modelleket — a Whisper Notes egyszeri $6.99, Macen ingyenes próbával.

Futhat a Whisper-átírás offline?

Igen — pont ez a nyílt súlyok lényege. Ha a modellfájl már az eszközödön van, nincs szükség internetre. A Whisper Notes a Whisper Large V3 Turbót Apple Siliconon futtatja CoreML/Metal segítségével, teljesen offline. Repülőgép üzemmóddal ellenőrizheted.

Melyik Whisper-modell a legpontosabb?

A large-v3 nyers pontossága a legjobb. A large-v3-turbo a WER-ben töredékszázalékon belül hozza ugyanazt, miközben körülbelül 5x gyorsabban fut — ezért ez ma az alapértelmezett a legtöbb eszközben.

Támogatja a Whisper a nyelvemet?

A Whisper nagyjából 100 nyelvet fed le, a sok adattal rendelkezőkben a legerősebb (angol, spanyol, német, francia stb.). Kínaihoz, japánhoz, koreaihoz és kantonihoz a SenseVoice jobb központozást és sokkal nagyobb sebességet nyújt Apple Siliconon.

Van Whisper-átíró alkalmazás iPhone-ra?

Igen. A Whisper Notes az iPhone Neural Engine-jére optimalizált Whisper-modelleket futtat (iPhone 12 és újabb) — rögzíts, importálj a Hangjegyzetekből vagy a Fájlokból, és írj át mindent az eszközön $6.99-ért, előfizetés nélkül.