Parakeet V3 тепер стандартний рушій Mac — у 10 разів швидший за Whisper

7 березня 2026 р.
·
6 min read
·Whisper Notes Team

Починаючи з версії 1.3.2, Whisper Notes для Mac використовує NVIDIA Parakeet TDT 0.6B як рушій розпізнавання мовлення за замовчуванням. Він у 10 разів швидший за Whisper Large V3 Turbo для англійської і при цьому точніший. Моделі Whisper залишаються доступними, якщо тобі потрібні інші мови.

Чому ми змінили модель за замовчуванням

Whisper — чудова модель, але вона створювалась як універсальний інструмент. Підтримує 100+ мов, вміє перекладати, розставляти мітки часу — справжній швейцарський ніж. Ціна за це — швидкість. Для диктування англійською, коли тобі просто потрібні слова на екрані якнайшвидше, це надмірно.

Ось що мене дратувало: при використанні системного диктування через Fn з Whisper після хвилинного фрагменту доводилося чекати 3–5 секунд, поки з'явиться текст. Ця пауза збиває весь ритм. Припиняєш говорити, чекаєш, дивишся на курсор — і вся магія голосового набору зникає.

Parakeet усе змінив. Швидкість настільки висока, що текст з'являється в мить, коли ти припиняєш говорити. Говориш — і слова просто вже там. Коли відчуєш це — миттєвий відгук без затримок — повернутися на Whisper дуже важко.

Наскільки швидкий Parakeet V3?

Цифри кажуть самі за себе. Ось реальне порівняння на 35-хвилинному аудіофайлі на тому ж Mac:

Модель 35 хв аудіо
Whisper Large V3 Turbo 3 хвилини
Parakeet TDT 0.6B v3 18 секунд

У 10 разів швидше. А оскільки модель менша (600M проти 800M параметрів), вона ще й споживає менше пам'яті та батареї.

Чому Parakeet v3 такий швидкий

Whisper обробляє аудіо так, як ти б читав книгу вголос — слово за словом, фрейм за фреймом, ніколи не забігаючи вперед. Навіть під час тиші він продовжує обробляти й вгадувати, що буде далі. Це ретельно, але повільно.

Parakeet використовує принципово інший підхід. Він стискає аудіосигнал у 8 разів перед обробкою, тож модель бачить лише те, що важливо. Далі, замість того щоб перемелювати кожен окремий фрейм, вона передбачає не тільки яке слово ти сказав, а й як довго воно триває — і перескакує вперед. Тиша? Пропускається повністю. Довга голосна? Одне передбачення замість десятків.

У результаті маємо модель, яка обробляє мовлення так, як твій мозок — фокусується на словах, ігнорує паузи. Саме тому вона в 10 разів швидша при меншій кількості параметрів і вищій точності.

Бенчмарки: Parakeet v3 проти Whisper

Порівняння Word Error Rate: Parakeet TDT 0.6B v3 проти Whisper Large V3 та Seamless M4T на кількох наборах бенчмарків

Parakeet v3 не поступається або перевершує моделі у 2-4 рази більші на бенчмарках FLEURS, CoVoST та MLS

На Hugging Face Open ASR Leaderboard Parakeet v3 очолює рейтинг із лише 600M параметрами — це менше половини від 1.55B у Whisper Large V3:

Модель Параметри Середній WER Швидкість (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

Менший WER = менше помилок. Більший RTFx = швидше. Parakeet перемагає за обома показниками. З 600M параметрами це ще й найкомпактніша модель у списку — а значить, чудово працює на Apple Silicon із мінімальним споживанням пам'яті та батареї.

Жодних галюцинацій

Якщо ти користувався Whisper для диктування, то напевно стикався з галюцинаціями під час тиші — модель повторює фрази, вигадує слова або видає звідкись «Subtitles by Amara.org». Це трапляється тому, що авторегресивний декодер Whisper завжди очікує згенерувати текст, навіть коли розпізнавати нічого.

NVIDIA натренувала Parakeet на 36 000 годинах чистого не-мовленнєвого аудіо (фоновий шум, кашель, тиша) з порожніми рядками як цільовим текстом. Модель навчилася розпізнавати тишу й мовчати. Для режиму постійного системного диктування це кардинальне покращення — більше жодного сміттєвого тексту, коли ти робиш паузу, щоб подумати.

Які мови підтримує Parakeet

Parakeet v3 підтримує 25 мов: болгарську, хорватську, чеську, данську, нідерландську, англійську, естонську, фінську, французьку, німецьку, грецьку, угорську, італійську, латвійську, литовську, мальтійську, польську, португальську, румунську, російську, словацьку, словенську, іспанську, шведську та українську.

Це охоплює більшу частину Європи, але модель не підтримує китайську, японську, корейську, арабську та гінді. Тому ми залишили моделі Whisper доступними для завантаження. Якщо ти диктуєш японською або мандаринською, обери Whisper Large V3 Turbo у перемикачі моделей. Для англійської та європейських мов Parakeet v3 — просто кращий рушій.

Перемикач моделей у Whisper Notes для Mac: Parakeet V3 обрано за замовчуванням, Whisper Small та Whisper Large V3 Turbo доступні для завантаження

Перемикач моделей: Parakeet V3 (за замовчуванням), Whisper Small та Whisper Large V3 Turbo — усе працює локально

Перемикач моделей у Whisper Notes

Відкрий Налаштування, щоб перемикатися між моделями:

  • Parakeet V3 (за замовчуванням) — Найшвидша, найкращий вибір для англійської та європейських мов
  • Whisper Small — Легка, 100+ мов
  • Whisper Large V3 Turbo — Найточніша багатомовна модель

Усі моделі працюють на 100% локально на твоєму Mac. Без інтернету, без хмари, дані не залишають пристрій.

Спробуй

Parakeet v3 вже доступний у версії для Mac — просто завантаж останній DMG. Якщо відгуки будуть позитивними, ми додамо Parakeet і у версію для iOS в одному з майбутніх оновлень.

Питання чи зворотний зв'язок? Пиши на support@whispernotes.app.