SenseVoice: транскрипция китайского, японского и корейского в 52× быстрее на Mac

КРАТКО — Сравнение трёх моделей для Mac

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 мин английский	2,91с (103×)	5,8с (52×)	20,92с (14,3×)
27 мин китайский	10,10с (161×)	13,83с (118×)	2 мин 4с (13,1×)
Языки	25 (европейские)	5 (zh, en, ja, ko, yue)	99+
Загрузка	465 МБ	827 МБ	1,5 ГБ
Память	~800 МБ	~700 МБ	~1,6 ГБ
Лучше всего для	Английский & европейские	Китайский, японский, корейский, кантонский	Всё остальное (99+ языков)

* Тесты скорости на Apple M4 Pro, 32 ГБ. 5-минутный английский подкаст и 27-минутный китайский подкаст. Коэффициент реального времени = длительность аудио ÷ время обработки (выше = быстрее). SenseVoice доступен только на macOS. iOS использует Parakeet (через ANE) и Whisper.

Начиная с версии 1.4.8, Whisper Notes для Mac поставляется с SenseVoice Small в качестве специального движка для транскрипции китайского, японского, корейского и кантонского языков. Он заменяет Qwen3-ASR и работает на GPU Apple через MLX вместо CPU — обрабатывая 27-минутный китайский подкаст за 13,83 секунды вместо 3 минут и 44 секунд.

Почему мы заменили Qwen3-ASR

Qwen3-ASR была достойная модель. Она поддерживала 30 языков плюс 22 китайских диалекта, а точность распознавания китайского была близка к лучшим показателям. Но у неё была проблема, которая усугублялась с увеличением длительности аудио: скорость.

Qwen3 использовала авторегрессивную архитектуру — тот же подход, что и Whisper: обработка аудио кадр за кадром, без возможности забегать вперёд. На 27-минутном китайском подкасте это занимало 73 секунды. Приемлемо, но далеко от мгновенного результата, который Parakeet V3 обеспечивает для английского.

Более глубокая проблема крылась в нашей инфраструктуре. Наша интеграция Qwen3 использовала sherpa-onnx — библиотеку на C с обёрткой на Swift в 2 249 строк, которая направляла все вычисления через ядра CPU. GPU простаивал, пока CPU вашего Mac выполнял всю работу.

SenseVoice решил обе проблемы. Неавторегрессивная архитектура для скорости. Apple MLX для ускорения на GPU. Результат: ускорение в 16,2 раза на том же оборудовании, а кодовая база сократилась с 2 249 до 288 строк.

Бенчмарк

Все три модели работают на одном и том же Apple M4 Pro, с одними и теми же аудиофайлами, в одинаковых условиях. Без облака. Без интернета. Только кремний.

Модель	5 мин английский	27 мин китайский	Скорость (RTFx)
Parakeet V3	2,91с	10,10с	103–161×
SenseVoice Small	5,8с	13,83с	52–118×
Whisper Large V3 Turbo	20,92с	2 мин 4с	13–14×
Qwen3-ASR (удалён)	—	73с	4,7×

SenseVoice примерно вдвое медленнее Parakeet V3 — но всё равно необычайно быстр. 27-минутный подкаст обрабатывается менее чем за 14 секунд. Вы нажимаете «Транскрибировать», делаете один вдох, и текст готов.

Сравните это с Whisper — 2 минуты 4 секунды, или со старым Qwen3 — 73 секунды. Архитектура важнее количества параметров.

Официальная таблица сравнения скорости инференса из статьи FunAudioLLM: SenseVoice-Small (70 мс на 10 с аудио) vs Whisper-Small (518 мс) vs Whisper-Large-V3 (1281 мс) — архитектура модели, параметры, поддерживаемые языки, RTF и задержка

Официальный бенчмарк инференса из статьи FunAudioLLM: SenseVoice-Small обрабатывает 10 с аудио за 70 мс (GPU A800). Whisper-Large-V3 — за 1 281 мс. Разница в 18× по чистой задержке инференса.

Модель	Время загрузки	Память	Размер загрузки
Parakeet V3	0,77с	~800 МБ	465 МБ
SenseVoice Small	0,81с	~700 МБ	827 МБ
Whisper Small	1,03с	~487 МБ	600 МБ
Whisper Large V3 Turbo	3,18с	~1,6 ГБ	3 ГБ

* Время загрузки и потребление памяти измерены на Apple M4 Pro, 32 ГБ.

SenseVoice загружается менее чем за секунду и использует меньше памяти, чем Parakeet. На Mac с 8 ГБ ОЗУ он комфортно работает параллельно с другими приложениями.

Почему SenseVoice быстрее: архитектура + среда выполнения

Разница в скорости между Qwen3-ASR и SenseVoice обусловлена двумя независимыми факторами.

Фактор 1: Архитектура модели. Qwen3-ASR авторегрессивна — она генерирует текст токен за токеном, где каждый зависит от предыдущего. SenseVoice использует неавторегрессивный (NAR) энкодер, обрабатывающий всё аудио параллельно. Одно это архитектурное различие делает SenseVoice принципиально быстрее вне зависимости от оборудования.

Фактор 2: Среда выполнения. Наша интеграция Qwen3-ASR использовала sherpa-onnx, работавшую на CPU. SenseVoice работает через Apple MLX, направляя вычисления на GPU. Могла бы Qwen3 тоже работать на MLX? Да — но она всё равно была бы медленнее SenseVoice, потому что авторегрессивное узкое место находится в архитектуре, а не в среде выполнения.

	Qwen3-ASR (старая)	SenseVoice (новая)
Архитектура	Авторегрессивная (токен за токеном)	Неавторегрессивная (параллельная)
Среда выполнения	sherpa-onnx (CPU)	Apple MLX (GPU)
27 мин китайский	224 секунды	13,83 секунды
Общее ускорение	базовый уровень	в 16,2× быстрее
Кодовая база	C-фреймворк 168 МБ + 2 249 строк Swift	288 строк Swift Actor

* Тот же 27-минутный китайский подкаст, Apple M4 Pro. Ускорение в 16,2× объединяет архитектурные (NAR vs AR) и рантайм (GPU vs CPU) улучшения.

Код тоже стал проще. Новая реализация SenseVoice — это один Swift Actor на 288 строк, который взаимодействует напрямую с MLX, заменив C-фреймворк размером 168 МБ. Меньше кода, меньше ошибок, легче приложение.

Пять языков, сделанных хорошо

SenseVoice не пытается делать всё. Он поддерживает пять языков:

Язык	SenseVoice-Small	Whisper-Large-V3	Победитель
Китайский (zh-CN)	10,78% CER	12,55% CER	SenseVoice (-14%)
Кантонский (yue)	7,09% CER	10,41% CER	SenseVoice (-32%)
Японский (ja)	11,96% CER	10,34% CER	Whisper (немного)
Корейский (ko)	8,28% CER	5,59% CER	Whisper
Английский (en)	14,71% WER	9,39% WER	Whisper (используйте Parakeet)

* Бенчмарк CommonVoice, CER = частота ошибок по символам, WER = частота ошибок по словам. Чем ниже, тем лучше. Источник: статья FunAudioLLM (2024). Задержка инференса SenseVoice-Small: 70 мс на 10 с аудио (GPU A800), более чем в 15× быстрее Whisper-Large-V3.

Сравнение точности SenseVoice и Whisper на бенчмарке CommonVoice для китайского, кантонского, английского, японского, корейского и 25 других языков — столбчатая диаграмма WER/CER

Бенчмарк CommonVoice: SenseVoice-Small (жёлтый) vs Whisper-Small (синий) vs Whisper-Large-V3 (оранжевый). Чем ниже, тем лучше. Источник: статья FunAudioLLM

Цифры рассказывают честную историю. SenseVoice превосходит Whisper по точности для китайского и кантонского с существенным отрывом, тогда как Whisper точнее для японского, корейского и английского. Но SenseVoice более чем в 15× быстрее Whisper-Large-V3. Для большинства реальных задач разница в скорости важнее, чем несколько процентных пунктов точности.

Результат для кантонского стоит выделить отдельно. Whisper-Small показывает 38,97% CER на кантонском — практически непригоден. Даже Whisper-Large-V3 достигает лишь 10,41%. SenseVoice показывает 7,09%. До SenseVoice не существовало хорошего способа транскрибировать кантонский локально на Mac. Если вы говорите на кантонском — эта модель создана для вас.

Результат транскрипции корейского языка с помощью SenseVoice в Whisper Notes для Mac — точный корейский текст из видео

Транскрипция корейского с SenseVoice: импорт видео с таймкодированными субтитрами

Тест в реальных условиях: 27-минутный китайский подкаст

Мы транскрибировали 27-минутный выпуск Thirteen Invitations (十三邀), китайского подкаста-интервью, с помощью SenseVoice и Whisper Large V3 Turbo на одном и том же M4 Pro. ElevenLabs Scribe (облако) использовался как эталон. Обе модели на устройстве допускают примерно одинаковое количество ошибок, но разного типа:

	SenseVoice	Whisper Large V3
Время	13,83с	2 мин 4с
Ошибки (выборка 5 мин)	~15–20	~12–15
Худшая ошибка	时差→食堂 (часовой пояс→столовая)	西昌→西藏 (город Сичан→Тибет, промах на 4 000 км)
Тип ошибок	Подмена омофонов	Географические/фактические ошибки

* Ручное сравнение с ElevenLabs Scribe (облачный эталон, тоже несовершенный). Обе модели на устройстве правильно написали «根深蒂固», где Scribe допустил ошибку.

Сопоставимая точность. В 9× быстрее. Для транскрипции китайского в реальных условиях SenseVoice выдаёт пригодный к использованию текст до того, как Whisper закончит загрузку.

Когда какую модель использовать

Whisper Notes для Mac теперь поставляется с четырьмя речевыми моделями. Каждая оптимизирована для разных сценариев:

Вам нужен...	Используйте эту модель	Почему
Английский или европейские языки, максимальная скорость	Parakeet V3	103× реального времени, минимальный процент ошибок. По умолчанию.
Китайский, японский, корейский или кантонский	SenseVoice Small	52–118× реального времени. Единственная модель с поддержкой кантонского.
Один из 99+ языков (арабский, тайский, русский и др.)	Whisper Large V3 Turbo	Наиболее широкая языковая поддержка. Медленнее, но универсальна.
Меньшее потребление памяти (старые Mac)	Whisper Small	487 МБ памяти. Подходит для Mac с 8 ГБ и запущенными другими приложениями.

Выбор модели в Whisper Notes для Mac: Parakeet V3, SenseVoice Small, Whisper Small и Whisper Large V3 Turbo с размерами загрузки и поддержкой языков

Настройки → Модель транскрипции: выберите подходящий движок для вашего языка

Селектор моделей в настройках показывает все четыре варианта с размерами загрузки, количеством языков и требованиями к памяти. SenseVoice загружается при первом использовании (~827 МБ) и остаётся на вашем устройстве.

Ограничения

SenseVoice — не универсальная модель. Вот что она не может:

• Только 5 языков. Если вам нужен тайский, русский, арабский, хинди или любой из 90+ других языков, которые поддерживает Whisper, оставайтесь на Whisper.

• Только Mac. SenseVoice работает через Apple MLX, для которого нужен macOS. На iPhone он недоступен. У пользователей iOS есть Parakeet (для европейских языков) и Whisper.

• Особенность при тихом звуке. При очень коротких или очень тихих фрагментах SenseVoice иногда может переключиться на китайский вывод независимо от выбранного языка. Ручная установка языка (вместо «Авто») снижает вероятность этого.

• Нет потоковой передачи. В отличие от потокового режима Whisper, SenseVoice обрабатывает полное аудио после записи. Для длинных файлов он автоматически сегментирует в точках тишины и показывает результаты постепенно.

Это архитектурные ограничения, а не ошибки. Модель, обученная на 5 языках, владеет этими 5 языками исключительно хорошо. Поддержка 99+ языков в Whisper сопровождается меньшей скоростью и более высоким уровнем ошибок для каждого отдельного языка.

Попробуйте

SenseVoice доступен в Whisper Notes для Mac версии 1.4.8 и новее. Загрузите его через Настройки → Модель транскрипции → SenseVoice Small (~827 МБ). Требуется Mac на Apple Silicon (M1 или новее).

Если вы используете Parakeet V3 и диктуете преимущественно на английском, переключаться не нужно. SenseVoice — для случаев, когда вам нужен китайский, японский, корейский или кантонский — и вы хотите получить результат быстро.

Скачать для Mac

Полный журнал изменений: whispernotes.app/changelog

Вопросы или отзывы: mac@whispernotes.app