КРАТКО — Сравнение трёх моделей для Mac
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 мин английский | 2,91с (103×) | 5,8с (52×) | 20,92с (14,3×) |
| 27 мин китайский | 10,10с (161×) | 13,83с (118×) | 2 мин 4с (13,1×) |
| Языки | 25 (европейские) | 5 (zh, en, ja, ko, yue) | 99+ |
| Загрузка | 465 МБ | 827 МБ | 1,5 ГБ |
| Память | ~800 МБ | ~700 МБ | ~1,6 ГБ |
| Лучше всего для | Английский & европейские | Китайский, японский, корейский, кантонский | Всё остальное (99+ языков) |
* Тесты скорости на Apple M4 Pro, 32 ГБ. 5-минутный английский подкаст и 27-минутный китайский подкаст. Коэффициент реального времени = длительность аудио ÷ время обработки (выше = быстрее). SenseVoice доступен только на macOS. iOS использует Parakeet (через ANE) и Whisper.
Начиная с версии 1.4.8, Whisper Notes для Mac поставляется с SenseVoice Small в качестве специального движка для транскрипции китайского, японского, корейского и кантонского языков. Он заменяет Qwen3-ASR и работает на GPU Apple через MLX вместо CPU — обрабатывая 27-минутный китайский подкаст за 13,83 секунды вместо 3 минут и 44 секунд.
Почему мы заменили Qwen3-ASR
Qwen3-ASR была достойная модель. Она поддерживала 30 языков плюс 22 китайских диалекта, а точность распознавания китайского была близка к лучшим показателям. Но у неё была проблема, которая усугублялась с увеличением длительности аудио: скорость.
Qwen3 использовала авторегрессивную архитектуру — тот же подход, что и Whisper: обработка аудио кадр за кадром, без возможности забегать вперёд. На 27-минутном китайском подкасте это занимало 73 секунды. Приемлемо, но далеко от мгновенного результата, который Parakeet V3 обеспечивает для английского.
Более глубокая проблема крылась в нашей инфраструктуре. Наша интеграция Qwen3 использовала sherpa-onnx — библиотеку на C с обёрткой на Swift в 2 249 строк, которая направляла все вычисления через ядра CPU. GPU простаивал, пока CPU вашего Mac выполнял всю работу.
SenseVoice решил обе проблемы. Неавторегрессивная архитектура для скорости. Apple MLX для ускорения на GPU. Результат: ускорение в 16,2 раза на том же оборудовании, а кодовая база сократилась с 2 249 до 288 строк.
Бенчмарк
Все три модели работают на одном и том же Apple M4 Pro, с одними и теми же аудиофайлами, в одинаковых условиях. Без облака. Без интернета. Только кремний.
| Модель | 5 мин английский | 27 мин китайский | Скорость (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2,91с | 10,10с | 103–161× |
| SenseVoice Small | 5,8с | 13,83с | 52–118× |
| Whisper Large V3 Turbo | 20,92с | 2 мин 4с | 13–14× |
| Qwen3-ASR (удалён) | — | 73с | 4,7× |
SenseVoice примерно вдвое медленнее Parakeet V3 — но всё равно необычайно быстр. 27-минутный подкаст обрабатывается менее чем за 14 секунд. Вы нажимаете «Транскрибировать», делаете один вдох, и текст готов.
Сравните это с Whisper — 2 минуты 4 секунды, или со старым Qwen3 — 73 секунды. Архитектура важнее количества параметров.
Официальный бенчмарк инференса из статьи FunAudioLLM: SenseVoice-Small обрабатывает 10 с аудио за 70 мс (GPU A800). Whisper-Large-V3 — за 1 281 мс. Разница в 18× по чистой задержке инференса.
| Модель | Время загрузки | Память | Размер загрузки |
|---|---|---|---|
| Parakeet V3 | 0,77с | ~800 МБ | 465 МБ |
| SenseVoice Small | 0,81с | ~700 МБ | 827 МБ |
| Whisper Small | 1,03с | ~487 МБ | 600 МБ |
| Whisper Large V3 Turbo | 3,18с | ~1,6 ГБ | 3 ГБ |
* Время загрузки и потребление памяти измерены на Apple M4 Pro, 32 ГБ.
SenseVoice загружается менее чем за секунду и использует меньше памяти, чем Parakeet. На Mac с 8 ГБ ОЗУ он комфортно работает параллельно с другими приложениями.
Почему SenseVoice быстрее: архитектура + среда выполнения
Разница в скорости между Qwen3-ASR и SenseVoice обусловлена двумя независимыми факторами.
Фактор 1: Архитектура модели. Qwen3-ASR авторегрессивна — она генерирует текст токен за токеном, где каждый зависит от предыдущего. SenseVoice использует неавторегрессивный (NAR) энкодер, обрабатывающий всё аудио параллельно. Одно это архитектурное различие делает SenseVoice принципиально быстрее вне зависимости от оборудования.
Фактор 2: Среда выполнения. Наша интеграция Qwen3-ASR использовала sherpa-onnx, работавшую на CPU. SenseVoice работает через Apple MLX, направляя вычисления на GPU. Могла бы Qwen3 тоже работать на MLX? Да — но она всё равно была бы медленнее SenseVoice, потому что авторегрессивное узкое место находится в архитектуре, а не в среде выполнения.
| Qwen3-ASR (старая) | SenseVoice (новая) | |
|---|---|---|
| Архитектура | Авторегрессивная (токен за токеном) | Неавторегрессивная (параллельная) |
| Среда выполнения | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 мин китайский | 224 секунды | 13,83 секунды |
| Общее ускорение | базовый уровень | в 16,2× быстрее |
| Кодовая база | C-фреймворк 168 МБ + 2 249 строк Swift | 288 строк Swift Actor |
* Тот же 27-минутный китайский подкаст, Apple M4 Pro. Ускорение в 16,2× объединяет архитектурные (NAR vs AR) и рантайм (GPU vs CPU) улучшения.
Код тоже стал проще. Новая реализация SenseVoice — это один Swift Actor на 288 строк, который взаимодействует напрямую с MLX, заменив C-фреймворк размером 168 МБ. Меньше кода, меньше ошибок, легче приложение.
Пять языков, сделанных хорошо
SenseVoice не пытается делать всё. Он поддерживает пять языков:
| Язык | SenseVoice-Small | Whisper-Large-V3 | Победитель |
|---|---|---|---|
| Китайский (zh-CN) | 10,78% CER | 12,55% CER | SenseVoice (-14%) |
| Кантонский (yue) | 7,09% CER | 10,41% CER | SenseVoice (-32%) |
| Японский (ja) | 11,96% CER | 10,34% CER | Whisper (немного) |
| Корейский (ko) | 8,28% CER | 5,59% CER | Whisper |
| Английский (en) | 14,71% WER | 9,39% WER | Whisper (используйте Parakeet) |
* Бенчмарк CommonVoice, CER = частота ошибок по символам, WER = частота ошибок по словам. Чем ниже, тем лучше. Источник: статья FunAudioLLM (2024). Задержка инференса SenseVoice-Small: 70 мс на 10 с аудио (GPU A800), более чем в 15× быстрее Whisper-Large-V3.
Бенчмарк CommonVoice: SenseVoice-Small (жёлтый) vs Whisper-Small (синий) vs Whisper-Large-V3 (оранжевый). Чем ниже, тем лучше. Источник: статья FunAudioLLM
Цифры рассказывают честную историю. SenseVoice превосходит Whisper по точности для китайского и кантонского с существенным отрывом, тогда как Whisper точнее для японского, корейского и английского. Но SenseVoice более чем в 15× быстрее Whisper-Large-V3. Для большинства реальных задач разница в скорости важнее, чем несколько процентных пунктов точности.
Результат для кантонского стоит выделить отдельно. Whisper-Small показывает 38,97% CER на кантонском — практически непригоден. Даже Whisper-Large-V3 достигает лишь 10,41%. SenseVoice показывает 7,09%. До SenseVoice не существовало хорошего способа транскрибировать кантонский локально на Mac. Если вы говорите на кантонском — эта модель создана для вас.
Транскрипция корейского с SenseVoice: импорт видео с таймкодированными субтитрами
Тест в реальных условиях: 27-минутный китайский подкаст
Мы транскрибировали 27-минутный выпуск Thirteen Invitations (十三邀), китайского подкаста-интервью, с помощью SenseVoice и Whisper Large V3 Turbo на одном и том же M4 Pro. ElevenLabs Scribe (облако) использовался как эталон. Обе модели на устройстве допускают примерно одинаковое количество ошибок, но разного типа:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| Время | 13,83с | 2 мин 4с |
| Ошибки (выборка 5 мин) | ~15–20 | ~12–15 |
| Худшая ошибка | 时差→食堂 (часовой пояс→столовая) | 西昌→西藏 (город Сичан→Тибет, промах на 4 000 км) |
| Тип ошибок | Подмена омофонов | Географические/фактические ошибки |
* Ручное сравнение с ElevenLabs Scribe (облачный эталон, тоже несовершенный). Обе модели на устройстве правильно написали «根深蒂固», где Scribe допустил ошибку.
Сопоставимая точность. В 9× быстрее. Для транскрипции китайского в реальных условиях SenseVoice выдаёт пригодный к использованию текст до того, как Whisper закончит загрузку.
Когда какую модель использовать
Whisper Notes для Mac теперь поставляется с четырьмя речевыми моделями. Каждая оптимизирована для разных сценариев:
| Вам нужен... | Используйте эту модель | Почему |
|---|---|---|
| Английский или европейские языки, максимальная скорость | Parakeet V3 | 103× реального времени, минимальный процент ошибок. По умолчанию. |
| Китайский, японский, корейский или кантонский | SenseVoice Small | 52–118× реального времени. Единственная модель с поддержкой кантонского. |
| Один из 99+ языков (арабский, тайский, русский и др.) | Whisper Large V3 Turbo | Наиболее широкая языковая поддержка. Медленнее, но универсальна. |
| Меньшее потребление памяти (старые Mac) | Whisper Small | 487 МБ памяти. Подходит для Mac с 8 ГБ и запущенными другими приложениями. |
Настройки → Модель транскрипции: выберите подходящий движок для вашего языка
Селектор моделей в настройках показывает все четыре варианта с размерами загрузки, количеством языков и требованиями к памяти. SenseVoice загружается при первом использовании (~827 МБ) и остаётся на вашем устройстве.
Ограничения
SenseVoice — не универсальная модель. Вот что она не может:
• Только 5 языков. Если вам нужен тайский, русский, арабский, хинди или любой из 90+ других языков, которые поддерживает Whisper, оставайтесь на Whisper.
• Только Mac. SenseVoice работает через Apple MLX, для которого нужен macOS. На iPhone он недоступен. У пользователей iOS есть Parakeet (для европейских языков) и Whisper.
• Особенность при тихом звуке. При очень коротких или очень тихих фрагментах SenseVoice иногда может переключиться на китайский вывод независимо от выбранного языка. Ручная установка языка (вместо «Авто») снижает вероятность этого.
• Нет потоковой передачи. В отличие от потокового режима Whisper, SenseVoice обрабатывает полное аудио после записи. Для длинных файлов он автоматически сегментирует в точках тишины и показывает результаты постепенно.
Это архитектурные ограничения, а не ошибки. Модель, обученная на 5 языках, владеет этими 5 языками исключительно хорошо. Поддержка 99+ языков в Whisper сопровождается меньшей скоростью и более высоким уровнем ошибок для каждого отдельного языка.
Попробуйте
SenseVoice доступен в Whisper Notes для Mac версии 1.4.8 и новее. Загрузите его через Настройки → Модель транскрипции → SenseVoice Small (~827 МБ). Требуется Mac на Apple Silicon (M1 или новее).
Если вы используете Parakeet V3 и диктуете преимущественно на английском, переключаться не нужно. SenseVoice — для случаев, когда вам нужен китайский, японский, корейский или кантонский — и вы хотите получить результат быстро.
Полный журнал изменений: whispernotes.app/changelog
Вопросы или отзывы: mac@whispernotes.app