Whisper Large-v3 Turbo від OpenAI скорочує декодер з 32 шарів до 4, зменшуючи кількість параметрів з 1,55 млрд до 809 млн. Результат: транскрипція у 2–5× швидше з майже ідентичною точністю. Whisper Notes постачає його на Mac з Apple Silicon.
V3 Turbo vs V3: Що змінилося
Turbo — це не нова архітектура. Це та сама модель Whisper Large-v3, у якій декодер обрізано з 32 шарів до 4, а потім дотренувано для відновлення точності. Енкодер залишився без змін.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| Параметри | 809M | 1,550M |
| Шари декодера | 4 | 32 |
| Мови | 99 | 99 |
| Завдання перекладу | Не підтримується | Підтримується |
| Ліцензія | MIT | Apache 2.0 |
Завдання перекладу було явно виключено з навчальних даних Turbo. Повна модель Large-v3 його підтримує, але Whisper Notes постачає лише Turbo — переклад здійснюється окремо через Apple Intelligence.
Тест швидкості: Whisper Notes на Apple Silicon
У Whisper Notes для Mac Turbo працює через CoreML на Neural Engine. Обробка 10 хвилин аудіо:
| Пристрій | Whisper V3 | V3 Turbo | Прискорення |
|---|---|---|---|
| iPhone 15 Pro | 425 с | 82 с | 5.2× |
| iPad Pro M2 | 380 с | 71 с | 5.4× |
| MacBook Pro M2 | 316 с | 63 с | 5.0× |
Прискорення у 5× стосується Whisper Notes на Apple Silicon, де менший декодер краще використовує оптимізацію Neural Engine. На GPU з фреймворками на кшталт faster-whisper різниця скорочується до ~2,7× (див. бенчмарки спільноти нижче).
Точність: порівняння WER
Таблиця лідерів Hugging Face Open ASR тестує обидві моделі на однакових англомовних наборах даних. Частка помилок у словах Turbo відрізняється від V3 менш ніж на пів відсоткового пункту на кожному бенчмарку:
| Набір даних | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| Середній WER | 7.83% | 7.44% |
V3 трохи точніша на кожному наборі даних, але різниця мала — в середньому 0,39 відсоткового пункту. У більшості реальних транскрипцій ви не помітите різниці.
На оцінюванні довгих записів YouTube-commons (один з найбільших відкритих ASR бенчмарків) Turbo показує WER 13,40% проти 13,20% у V3 — при цьому працюючи з фактором реального часу 129,5× проти 55,3×. Це у 2,3× швидше з майже ідентичною точністю на реальному аудіо.
Бенчмарки спільноти: GPU та CPU
Незалежні бенчмарки спільнот faster-whisper та whisper.cpp демонструють стабільні результати на різному обладнанні. Транскрипція 13 хвилин аудіо з faster-whisper на GPU:
| Модель | Точність | Час | Пам'ять GPU | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 с | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 с | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 с | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 с | 2,409 MB | 2.39% |
Джерело: бенчмарк faster-whisper на GPU NVIDIA, валідаційний сплит LibriSpeech clean. Turbo int8 використовує лише 1,5 ГБ VRAM — поміститься на GPU з 2 ГБ.
Пакетне виведення на RTX 3060 Laptop (6 ГБ VRAM, точність int8) ще більше збільшує перевагу:
| Модель | Послідовне | Пакетне (10) | Пакетний WER |
|---|---|---|---|
| Large-v3 Turbo | 46.1 с | 18.7 с | 7.7% |
| Large-v3 | 230.8 с | 43.0 с | 7.9% |
| Large-v2 | 178.3 с | 43.2 с | 8.8% |
| Medium | 113.3 с | 26.3 с | 8.9% |
Джерело: бенчмарк NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 ГБ, французьке аудіо, точність int8.
З пакетною обробкою Turbo досягає найкращого WER серед усіх протестованих моделей (7,7%), будучи при цьому найшвидшим. Це оптимальний вибір для продакшену.
Відомі обмеження (і як Whisper Notes з ними справляється)
Немає вбудованого перекладу
Turbo навчали без даних перекладу. Він транскрибує лише мовою оригіналу — на відміну від Large-v3, який підтримує переклад аудіо→англійською.
Whisper Notes — Apple Intelligence автоматично перекладає транскрипти обраною вами мовою, забезпечуючи двомовний вивід незалежно від обраної моделі.
Більше галюцинацій на зашумленому аудіо
Звіти спільноти вказують, що Turbo більше галюцинує на дуже коротких кліпах або зашумлених записах порівняно з V3. Очікувано, враховуючи зменшений декодер (4 шари проти 32).
Whisper Notes — перед транскрипцією запускає Pyannote VAD, виявляючи сегменти мовлення та видаляючи тишу/шум, щоб модель обробляла лише справжній голос.
Яку модель обрати?
| Англійська / Європейські | Parakeet V3 — у 10× швидше за Whisper, краща точність |
| Китайська / Японська / Корейська | SenseVoice — створений для CJK, швидкість 52× |
| Інші мови | Whisper Large V3 Turbo — 99 мов, висока точність, повільніше |