Whisper Large V3 Turbo vs V3: у 5 Разів Швидший на Mac (Бенчмарк)

Whisper Large-v3 Turbo від OpenAI скорочує декодер з 32 шарів до 4, зменшуючи кількість параметрів з 1,55 млрд до 809 млн. У наших тестах на Apple Silicon він транскрибував те саме аудіо приблизно у 5× швидше з майже ідентичною точністю. Whisper Notes постачає його на Mac та iPhone.

Порівняння архітектур Whisper Large V3 Turbo та V3

V3 Turbo vs V3: Що змінилося

Turbo — це не нова архітектура. Це та сама модель Whisper Large-v3, у якій декодер обрізано з 32 шарів до 4, а потім дотренувано для відновлення точності. Енкодер залишився без змін.

	Large-v3 Turbo	Large-v3
Параметри	809M	1,550M
Шари декодера	4	32
Мови	100+	100+
Завдання перекладу	Не підтримується	Підтримується
Ліцензія	MIT	Apache 2.0

Методика: той самий 10-хвилинний аудіофайл транскрибувався в одній і тій самій збірці Whisper Notes на кожному з названих пристроїв. Час — це секунди «на годиннику» від запуску транскрипції до фінального тексту; між V3 і Turbo змінювалася лише модель.

Завдання перекладу було явно виключено з навчальних даних Turbo. Повна модель Large-v3 його підтримує, але Whisper Notes постачає лише Turbo — переклад здійснюється окремо через Apple Intelligence.

Базова модель: що таке Whisper Large-v3?

Whisper Large-v3 — це флагманська відкрита модель розпізнавання мовлення від OpenAI, випущена в листопаді 2023 року. Вона має 1,55 млрд параметрів, приймає на вхід спектрограму зі 128 мел-смуг, навчалася на 5 мільйонах годин аудіо (1 млн слабко розмічених + 4 млн псевдорозмічених) і підтримує понад 100 мов, включно з кантонською. У таблиці лідерів Hugging Face Open ASR її середня частка помилок у словах становить ~7,4% — це та стеля точності, з якою Turbo порівнюється впродовж усієї статті. Як Large-v3 виглядає на тлі всіх інших локальних моделей — дивіться наше порівняння моделей Whisper.

Тест швидкості: Whisper Notes на Apple Silicon

У Whisper Notes для Mac Turbo працює через CoreML на Neural Engine. Обробка 10 хвилин аудіо:

Пристрій	Whisper V3	V3 Turbo	Прискорення
iPhone 15 Pro	425 с	82 с	5.2×
iPad Pro M2	380 с	71 с	5.4×
MacBook Pro M2	316 с	63 с	5.0×

Прискорення у 5× стосується Whisper Notes на Apple Silicon, де менший декодер краще використовує оптимізацію Neural Engine. На GPU з фреймворками на кшталт faster-whisper різниця скорочується до ~2,7× (див. бенчмарки спільноти нижче).

Точність: порівняння WER

Таблиця лідерів Hugging Face Open ASR тестує обидві моделі на однакових англомовних наборах даних. Частка помилок у словах Turbo відрізняється від V3 менш ніж на пів відсоткового пункту на кожному бенчмарку:

Набір даних	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
Середній WER	7.83%	7.44%

V3 трохи точніша на кожному наборі даних, але різниця мала — в середньому 0,39 відсоткового пункту. У більшості реальних транскрипцій ви не помітите різниці.

На оцінюванні довгих записів YouTube-commons (один з найбільших відкритих ASR бенчмарків) Turbo показує WER 13,40% проти 13,20% у V3 — при цьому працюючи з фактором реального часу 129,5× проти 55,3×. Це у 2,3× швидше з майже ідентичною точністю на реальному аудіо.

Наскільки точний Turbo українською, корейською та іншими мовами?

Наведені вище бенчмарки — англомовні. Згідно з карткою моделі OpenAI, обрізаний 4-шаровий декодер Turbo коштує трохи більше точності в неанглійських мовах, ніж в англійській, причому найбільша деградація припадає на мови з меншим обсягом даних. Для української та більшості європейських мов Turbo тримається близько до повної Large-v3 — а якщо ви користуєтеся Whisper Notes, Parakeet V3 покриває українську та ще 24 європейські мови зі швидкістю, в 10 разів вищою за Whisper.

Для корейської, японської, китайської та кантонської спеціалізована модель одночасно і швидша, і краще розставляє розділові знаки: SenseVoice транскрибує CJK зі швидкістю 52× реального часу. Whisper Notes постачає SenseVoice поряд із Turbo і на Mac, і на iOS, тож ви обираєте модель під конкретну мову, а не проганяєте все через одну.

Бенчмарки спільноти: GPU та CPU

Незалежні бенчмарки спільнот faster-whisper та whisper.cpp демонструють стабільні результати на різному обладнанні. Транскрипція 13 хвилин аудіо з faster-whisper на GPU:

Модель	Точність	Час	Пам'ять GPU	WER
Large-v3 Turbo	fp16	19.2 с	2,537 MB	1.92%
Large-v3	fp16	52.0 с	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 с	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 с	2,409 MB	2.39%

Джерело: бенчмарк faster-whisper на GPU NVIDIA, валідаційний сплит LibriSpeech clean. Turbo int8 використовує лише 1,5 ГБ VRAM — поміститься на GPU з 2 ГБ.

Пакетне виведення на RTX 3060 Laptop (6 ГБ VRAM, точність int8) ще більше збільшує перевагу:

Модель	Послідовне	Пакетне (10)	Пакетний WER
Large-v3 Turbo	46.1 с	18.7 с	7.7%
Large-v3	230.8 с	43.0 с	7.9%
Large-v2	178.3 с	43.2 с	8.8%
Medium	113.3 с	26.3 с	8.9%

Джерело: бенчмарк NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 ГБ, французьке аудіо, точність int8.

З пакетною обробкою Turbo досягає найкращого WER серед усіх протестованих моделей (7,7%), будучи при цьому найшвидшим. Це оптимальний вибір для продакшену.

Turbo проти Medium і всіх інших розмірів Whisper

До появи Turbo звичним компромісом була Medium: прийнятна точність за терпимої швидкості. Turbo робить цей компроміс непотрібним — з 809 млн параметрів вона лише трохи більша за Medium (769 млн), але дає точність великого класу в кілька разів швидше. Ось усе сімейство моделей поруч:

Модель	Параметри	Розмір на диску	Відносна швидкість	Рівень точності
tiny	39M	~75 MB	~10×	Найнижчий
base	74M	~142 MB	~7×	Низький
small	244M	~466 MB	~4×	Помірний
medium	769M	~1.5 GB	~2×	Високий
large-v3	1,550M	~2.9 GB	1× (базовий рівень)	Найвищий
large-v3-turbo	809M	~1.6 GB	~5× на Apple Silicon	Майже найвищий

Випущена 30 вересня 2024 року, Turbo має 809 млн параметрів. Якщо раніше ви обирали Medium заради економії диска чи швидкості, тепер Turbo перевершує її і за точністю, і за швидкістю при приблизно тому самому обсязі.

Відомі обмеження (і як Whisper Notes з ними справляється)

Немає вбудованого перекладу

Turbo навчали без даних перекладу. Він транскрибує лише мовою оригіналу — на відміну від Large-v3, який підтримує переклад аудіо→англійською.

Whisper Notes — Apple Intelligence автоматично перекладає транскрипти обраною вами мовою, забезпечуючи двомовний вивід незалежно від обраної моделі.

Більше галюцинацій на зашумленому аудіо

Звіти спільноти вказують, що Turbo більше галюцинує на дуже коротких кліпах або зашумлених записах порівняно з V3. Очікувано, враховуючи зменшений декодер (4 шари проти 32).

Whisper Notes — перед транскрипцією запускає Pyannote VAD, виявляючи сегменти мовлення та видаляючи тишу/шум, щоб модель обробляла лише справжній голос.

Яку модель обрати?

Англійська / Європейські	Parakeet V3 — у 10× швидше за Whisper, краща точність
Китайська / Японська / Корейська	SenseVoice — створений для CJK, швидкість 52×
Інші мови	Whisper Large V3 Turbo — 100+ мов, висока точність, повільніше

Whisper Large-v3 Turbo: поширені запитання

Чим відрізняються Whisper Large-v3 і Large-v3 Turbo?

Large-v3 Turbo зберігає енкодер Large-v3, але скорочує декодер з 32 шарів до 4. Саме тому вона значно швидша, залишаючись близькою до Large-v3 за точністю транскрипції. Компроміс у тому, що Turbo не підтримує вбудоване завдання перекладу Whisper.

Чи підтримує faster-whisper модель Large-v3 Turbo?

Так. faster-whisper підтримує Large-v3 Turbo через конвертації CTranslate2, і бенчмарки спільноти показують, що Turbo — сильний вибір за обмеженого VRAM. У бенчмарку вище Turbo int8 використала близько 1,5 ГБ VRAM.

Чи підтримує whisper.cpp модель Large-v3 Turbo?

Так. whisper.cpp може запускати конвертовані версії Whisper Large-v3 Turbo у форматах GGML/GGUF. Якщо ви збираєте власний локальний конвеєр транскрипції, Turbo часто простіше вмістити на споживчому залізі, ніж повну Large-v3.

Де завантажити openai/whisper-large-v3-turbo?

Офіційні ваги моделі доступні від OpenAI на Hugging Face. Користувачам Whisper Notes не потрібно завантажувати їх вручну: Mac-застосунок сам налаштовує локальну модель через інтерфейс.

Порівнюєте всі локальні варіанти? Кожна модель перетворення мовлення на текст на пристрої — варіанти Whisper, Parakeet V3, SenseVoice і Voxtral — зіставлена пліч-о-пліч на нашій сторінці порівняння моделей Whisper. Тільки знайомитеся з Whisper? Почніть з гіда з транскрипції Whisper — що це за модель, всі способи її запустити та скільки це коштує.

Завантажити для iOS

Завантажити для macOS