Начиная с версии 1.3.2, Whisper Notes для Mac использует NVIDIA Parakeet TDT 0.6B как движок распознавания речи по умолчанию. Он в 10 раз быстрее Whisper Large V3 Turbo для английского языка и при этом точнее. Модели Whisper по-прежнему доступны, если тебе нужны другие языки.
Почему мы сменили модель по умолчанию
Whisper — отличная модель, но она задумывалась как универсальный инструмент. Поддерживает 100+ языков, умеет переводить, расставлять таймстемпы — настоящий швейцарский нож. Расплата за это — скорость. Для диктовки на английском, когда тебе просто нужны слова на экране как можно быстрее, это перебор.
Вот что меня раздражало: при использовании системной диктовки через Fn с Whisper после минутного фрагмента приходилось ждать 3–5 секунд, пока появится текст. Эта пауза сбивает весь ритм. Перестаёшь говорить, ждёшь, смотришь на курсор — и вся магия голосового набора пропадает.
Parakeet всё изменил. Скорость настолько высокая, что текст появляется в тот момент, когда ты перестаёшь говорить. Говоришь — и слова просто уже там. Когда испытаешь это ощущение — мгновенный отклик без задержек — вернуться на Whisper уже очень сложно.
Насколько быстр Parakeet V3?
Цифры говорят сами за себя. Вот реальное сравнение на 35-минутном аудиофайле на одном и том же Mac:
| Модель | 35 мин аудио |
|---|---|
| Whisper Large V3 Turbo | 3 минуты |
| Parakeet TDT 0.6B v3 | 18 секунд |
В 10 раз быстрее. А поскольку модель меньше (600M против 800M параметров), она ещё и потребляет меньше памяти и батареи.
Почему Parakeet v3 такой быстрый
Whisper обрабатывает аудио так же, как ты бы читал книгу вслух — слово за словом, фрейм за фреймом, никогда не забегая вперёд. Даже во время тишины он продолжает обрабатывать и угадывать, что будет дальше. Это тщательно, но медленно.
Parakeet использует принципиально другой подход. Он сжимает аудиосигнал в 8 раз перед обработкой, так что модель видит только то, что важно. Дальше, вместо того чтобы перемалывать каждый отдельный фрейм, она предсказывает не только какое слово ты сказал, но и сколько оно длится — и перескакивает вперёд. Тишина? Пропускается целиком. Длинная гласная? Одно предсказание вместо десятков.
В итоге получается модель, которая обрабатывает речь так же, как твой мозг — фокусируется на словах, игнорирует паузы. Поэтому она в 10 раз быстрее при меньшем количестве параметров и более высокой точности.
Бенчмарки: Parakeet v3 против Whisper
Parakeet v3 не уступает или превосходит модели в 2-4 раза крупнее на бенчмарках FLEURS, CoVoST и MLS
На Hugging Face Open ASR Leaderboard Parakeet v3 возглавляет рейтинг с всего 600M параметрами — это меньше половины от 1.55B у Whisper Large V3:
| Модель | Параметры | Средний WER | Скорость (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
Ниже WER = меньше ошибок. Выше RTFx = быстрее. Parakeet побеждает по обоим показателям. С 600M параметрами это ещё и самая компактная модель в списке — а значит, отлично работает на Apple Silicon с минимальным расходом памяти и батареи.
Никаких галлюцинаций
Если ты использовал Whisper для диктовки, то наверняка сталкивался с галлюцинациями во время тишины — модель повторяет фразы, придумывает слова или выдаёт откуда-то «Subtitles by Amara.org». Это происходит потому, что авторегрессивный декодер Whisper всегда ожидает сгенерировать текст, даже когда распознавать нечего.
NVIDIA обучила Parakeet на 36 000 часах чистого не-речевого аудио (фоновый шум, кашель, тишина) с пустыми строками в качестве целевого текста. Модель научилась распознавать тишину и молчать. Для режима постоянной системной диктовки это кардинальное улучшение — больше никакого мусорного текста, когда ты делаешь паузу, чтобы подумать.
Какие языки поддерживает Parakeet
Parakeet v3 поддерживает 25 языков: болгарский, хорватский, чешский, датский, нидерландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, русский, словацкий, словенский, испанский, шведский и украинский.
Это покрывает большую часть Европы, но модель не поддерживает китайский, японский, корейский, арабский и хинди. Поэтому мы оставили модели Whisper доступными для скачивания. Если ты диктуешь на японском или мандаринском, выбери Whisper Large V3 Turbo в переключателе моделей. Для английского и европейских языков Parakeet v3 — просто лучший движок.
Переключатель моделей: Parakeet V3 (по умолчанию), Whisper Small и Whisper Large V3 Turbo — всё работает локально
Переключатель моделей в Whisper Notes
Открой Настройки, чтобы переключиться между моделями:
- Parakeet V3 (по умолчанию) — Самая быстрая, лучший выбор для английского и европейских языков
- Whisper Small — Легковесная, 100+ языков
- Whisper Large V3 Turbo — Самая точная мультиязычная модель
Все модели работают на 100% локально на твоём Mac. Без интернета, без облака, данные не покидают устройство.
Попробуй
Parakeet v3 уже доступен в версии для Mac — просто скачай последний DMG. Если отзывы будут положительными, мы добавим Parakeet и в версию для iOS в одном из будущих обновлений.
Вопросы или обратная связь? Пиши на support@whispernotes.app.