Whisper Large V3 Turbo vs V3: у 5 Разів Швидший на Mac (Бенчмарк)

6 листопада 2024 р.
·
6 min read
·Whisper Notes Team

Whisper Large-v3 Turbo від OpenAI скорочує декодер з 32 шарів до 4, зменшуючи кількість параметрів з 1,55 млрд до 809 млн. Результат: транскрипція у 2–5× швидше з майже ідентичною точністю. Whisper Notes постачає його на Mac з Apple Silicon.

Порівняння архітектур Whisper Large V3 Turbo та V3

V3 Turbo vs V3: Що змінилося

Turbo — це не нова архітектура. Це та сама модель Whisper Large-v3, у якій декодер обрізано з 32 шарів до 4, а потім дотренувано для відновлення точності. Енкодер залишився без змін.

Large-v3 Turbo Large-v3
Параметри 809M 1,550M
Шари декодера 4 32
Мови 99 99
Завдання перекладу Не підтримується Підтримується
Ліцензія MIT Apache 2.0

Завдання перекладу було явно виключено з навчальних даних Turbo. Повна модель Large-v3 його підтримує, але Whisper Notes постачає лише Turbo — переклад здійснюється окремо через Apple Intelligence.

Тест швидкості: Whisper Notes на Apple Silicon

У Whisper Notes для Mac Turbo працює через CoreML на Neural Engine. Обробка 10 хвилин аудіо:

Пристрій Whisper V3 V3 Turbo Прискорення
iPhone 15 Pro 425 с 82 с 5.2×
iPad Pro M2 380 с 71 с 5.4×
MacBook Pro M2 316 с 63 с 5.0×

Прискорення у 5× стосується Whisper Notes на Apple Silicon, де менший декодер краще використовує оптимізацію Neural Engine. На GPU з фреймворками на кшталт faster-whisper різниця скорочується до ~2,7× (див. бенчмарки спільноти нижче).

Точність: порівняння WER

Таблиця лідерів Hugging Face Open ASR тестує обидві моделі на однакових англомовних наборах даних. Частка помилок у словах Turbo відрізняється від V3 менш ніж на пів відсоткового пункту на кожному бенчмарку:

Набір даних V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
Середній WER 7.83% 7.44%

V3 трохи точніша на кожному наборі даних, але різниця мала — в середньому 0,39 відсоткового пункту. У більшості реальних транскрипцій ви не помітите різниці.

На оцінюванні довгих записів YouTube-commons (один з найбільших відкритих ASR бенчмарків) Turbo показує WER 13,40% проти 13,20% у V3 — при цьому працюючи з фактором реального часу 129,5× проти 55,3×. Це у 2,3× швидше з майже ідентичною точністю на реальному аудіо.

Бенчмарки спільноти: GPU та CPU

Незалежні бенчмарки спільнот faster-whisper та whisper.cpp демонструють стабільні результати на різному обладнанні. Транскрипція 13 хвилин аудіо з faster-whisper на GPU:

Модель Точність Час Пам'ять GPU WER
Large-v3 Turbo fp16 19.2 с 2,537 MB 1.92%
Large-v3 fp16 52.0 с 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 с 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 с 2,409 MB 2.39%

Джерело: бенчмарк faster-whisper на GPU NVIDIA, валідаційний сплит LibriSpeech clean. Turbo int8 використовує лише 1,5 ГБ VRAM — поміститься на GPU з 2 ГБ.

Пакетне виведення на RTX 3060 Laptop (6 ГБ VRAM, точність int8) ще більше збільшує перевагу:

Модель Послідовне Пакетне (10) Пакетний WER
Large-v3 Turbo 46.1 с 18.7 с 7.7%
Large-v3 230.8 с 43.0 с 7.9%
Large-v2 178.3 с 43.2 с 8.8%
Medium 113.3 с 26.3 с 8.9%

Джерело: бенчмарк NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 ГБ, французьке аудіо, точність int8.

З пакетною обробкою Turbo досягає найкращого WER серед усіх протестованих моделей (7,7%), будучи при цьому найшвидшим. Це оптимальний вибір для продакшену.

Відомі обмеження (і як Whisper Notes з ними справляється)

Немає вбудованого перекладу

Turbo навчали без даних перекладу. Він транскрибує лише мовою оригіналу — на відміну від Large-v3, який підтримує переклад аудіо→англійською.

Whisper Notes — Apple Intelligence автоматично перекладає транскрипти обраною вами мовою, забезпечуючи двомовний вивід незалежно від обраної моделі.

Більше галюцинацій на зашумленому аудіо

Звіти спільноти вказують, що Turbo більше галюцинує на дуже коротких кліпах або зашумлених записах порівняно з V3. Очікувано, враховуючи зменшений декодер (4 шари проти 32).

Whisper Notes — перед транскрипцією запускає Pyannote VAD, виявляючи сегменти мовлення та видаляючи тишу/шум, щоб модель обробляла лише справжній голос.

Яку модель обрати?

Англійська / Європейські Parakeet V3 — у 10× швидше за Whisper, краща точність
Китайська / Японська / Корейська SenseVoice — створений для CJK, швидкість 52×
Інші мови Whisper Large V3 Turbo — 99 мов, висока точність, повільніше