Parakeet V3 — новый стандартный движок Mac — в 10 раз быстрее Whisper

7 марта 2026 г.
·
6 min read
·Whisper Notes Team

Начиная с версии 1.3.2, Whisper Notes для Mac использует NVIDIA Parakeet TDT 0.6B как движок распознавания речи по умолчанию. Он в 10 раз быстрее Whisper Large V3 Turbo для английского языка и при этом точнее. Модели Whisper по-прежнему доступны, если тебе нужны другие языки.

Почему мы сменили модель по умолчанию

Whisper — отличная модель, но она задумывалась как универсальный инструмент. Поддерживает 100+ языков, умеет переводить, расставлять таймстемпы — настоящий швейцарский нож. Расплата за это — скорость. Для диктовки на английском, когда тебе просто нужны слова на экране как можно быстрее, это перебор.

Вот что меня раздражало: при использовании системной диктовки через Fn с Whisper после минутного фрагмента приходилось ждать 3–5 секунд, пока появится текст. Эта пауза сбивает весь ритм. Перестаёшь говорить, ждёшь, смотришь на курсор — и вся магия голосового набора пропадает.

Parakeet всё изменил. Скорость настолько высокая, что текст появляется в тот момент, когда ты перестаёшь говорить. Говоришь — и слова просто уже там. Когда испытаешь это ощущение — мгновенный отклик без задержек — вернуться на Whisper уже очень сложно.

Насколько быстр Parakeet V3?

Цифры говорят сами за себя. Вот реальное сравнение на 35-минутном аудиофайле на одном и том же Mac:

Модель 35 мин аудио
Whisper Large V3 Turbo 3 минуты
Parakeet TDT 0.6B v3 18 секунд

В 10 раз быстрее. А поскольку модель меньше (600M против 800M параметров), она ещё и потребляет меньше памяти и батареи.

Почему Parakeet v3 такой быстрый

Whisper обрабатывает аудио так же, как ты бы читал книгу вслух — слово за словом, фрейм за фреймом, никогда не забегая вперёд. Даже во время тишины он продолжает обрабатывать и угадывать, что будет дальше. Это тщательно, но медленно.

Parakeet использует принципиально другой подход. Он сжимает аудиосигнал в 8 раз перед обработкой, так что модель видит только то, что важно. Дальше, вместо того чтобы перемалывать каждый отдельный фрейм, она предсказывает не только какое слово ты сказал, но и сколько оно длится — и перескакивает вперёд. Тишина? Пропускается целиком. Длинная гласная? Одно предсказание вместо десятков.

В итоге получается модель, которая обрабатывает речь так же, как твой мозг — фокусируется на словах, игнорирует паузы. Поэтому она в 10 раз быстрее при меньшем количестве параметров и более высокой точности.

Бенчмарки: Parakeet v3 против Whisper

Сравнение Word Error Rate: Parakeet TDT 0.6B v3 против Whisper Large V3 и Seamless M4T на нескольких наборах бенчмарков

Parakeet v3 не уступает или превосходит модели в 2-4 раза крупнее на бенчмарках FLEURS, CoVoST и MLS

На Hugging Face Open ASR Leaderboard Parakeet v3 возглавляет рейтинг с всего 600M параметрами — это меньше половины от 1.55B у Whisper Large V3:

Модель Параметры Средний WER Скорость (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

Ниже WER = меньше ошибок. Выше RTFx = быстрее. Parakeet побеждает по обоим показателям. С 600M параметрами это ещё и самая компактная модель в списке — а значит, отлично работает на Apple Silicon с минимальным расходом памяти и батареи.

Никаких галлюцинаций

Если ты использовал Whisper для диктовки, то наверняка сталкивался с галлюцинациями во время тишины — модель повторяет фразы, придумывает слова или выдаёт откуда-то «Subtitles by Amara.org». Это происходит потому, что авторегрессивный декодер Whisper всегда ожидает сгенерировать текст, даже когда распознавать нечего.

NVIDIA обучила Parakeet на 36 000 часах чистого не-речевого аудио (фоновый шум, кашель, тишина) с пустыми строками в качестве целевого текста. Модель научилась распознавать тишину и молчать. Для режима постоянной системной диктовки это кардинальное улучшение — больше никакого мусорного текста, когда ты делаешь паузу, чтобы подумать.

Какие языки поддерживает Parakeet

Parakeet v3 поддерживает 25 языков: болгарский, хорватский, чешский, датский, нидерландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, русский, словацкий, словенский, испанский, шведский и украинский.

Это покрывает большую часть Европы, но модель не поддерживает китайский, японский, корейский, арабский и хинди. Поэтому мы оставили модели Whisper доступными для скачивания. Если ты диктуешь на японском или мандаринском, выбери Whisper Large V3 Turbo в переключателе моделей. Для английского и европейских языков Parakeet v3 — просто лучший движок.

Переключатель моделей в Whisper Notes для Mac: Parakeet V3 выбран по умолчанию, Whisper Small и Whisper Large V3 Turbo доступны для скачивания

Переключатель моделей: Parakeet V3 (по умолчанию), Whisper Small и Whisper Large V3 Turbo — всё работает локально

Переключатель моделей в Whisper Notes

Открой Настройки, чтобы переключиться между моделями:

  • Parakeet V3 (по умолчанию) — Самая быстрая, лучший выбор для английского и европейских языков
  • Whisper Small — Легковесная, 100+ языков
  • Whisper Large V3 Turbo — Самая точная мультиязычная модель

Все модели работают на 100% локально на твоём Mac. Без интернета, без облака, данные не покидают устройство.

Попробуй

Parakeet v3 уже доступен в версии для Mac — просто скачай последний DMG. Если отзывы будут положительными, мы добавим Parakeet и в версию для iOS в одном из будущих обновлений.

Вопросы или обратная связь? Пиши на support@whispernotes.app.