SenseVoice: транскрипція китайської, японської та корейської у 52× швидше на Mac

TL;DR -- Три моделі Mac у порівнянні

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 хв англійська	2.91s (103×)	5.8s (52×)	20.92s (14.3×)
27 хв китайська	10.10s (161×)	13.83s (118×)	2 хв 4с (13.1×)
Мови	25 (європейські)	5 (zh, en, ja, ko, yue)	99+
Завантаження	465 MB	827 MB	1.5 GB
Пам'ять	~800 MB	~700 MB	~1.6 GB
Найкраще для	Англійська & європейські	Китайська, японська, корейська, кантонська	Все інше (99+ мов)

* Тести швидкості на Apple M4 Pro, 32 GB. 5-хвилинний англійський подкаст та 27-хвилинний китайський подкаст. Фактор реального часу = тривалість аудіо / час обробки (вище = швидше). SenseVoice доступний лише для macOS. iOS використовує Parakeet (через ANE) та Whisper.

Починаючи з версії 1.4.8, Whisper Notes для Mac включає SenseVoice Small як спеціалізований рушій для транскрипції китайською, японською, корейською та кантонською мовами. Він замінює Qwen3-ASR і працює на GPU Apple через MLX замість CPU -- обробляючи 27-хвилинний китайський подкаст за 13,83 секунди замість 3 хвилин 44 секунд.

Чому ми замінили Qwen3-ASR

Qwen3-ASR була надійною моделлю. Вона підтримувала 30 мов плюс 22 китайські діалекти, а її точність для китайської була близькою до state-of-the-art. Але в неї була проблема, яка погіршувалась зі збільшенням тривалості аудіо: швидкість.

Qwen3 використовувала авторегресивну архітектуру -- той самий підхід, що й Whisper, обробляючи аудіо кадр за кадром, ніколи не пропускаючи вперед. На 27-хвилинному китайському подкасті це займало 73 секунди. Прийнятно, але не миттєвий результат, який Parakeet V3 забезпечує для англійської.

Глибша проблема була в нашій інфраструктурі. Наша інтеграція Qwen3 використовувала sherpa-onnx, бібліотеку на C з обгорткою на Swift у 2 249 рядків, яка направляла все через ядра CPU. GPU простоювало, поки CPU вашого Mac виконував усю роботу.

SenseVoice вирішила обидві проблеми. Неавторегресивна архітектура для швидкості. Apple MLX для прискорення GPU. Результат: прискорення у 16,2 рази на тому ж обладнанні, з кодовою базою, зменшеною з 2 249 рядків до 288.

Бенчмарк

Усі три моделі працюють на одному Apple M4 Pro, ті самі аудіофайли, ті самі умови. Без хмари. Без інтернету. Тільки кремній.

Модель	5 хв англійська	27 хв китайська	Швидкість (RTFx)
Parakeet V3	2.91s	10.10s	103--161×
SenseVoice Small	5.8s	13.83s	52--118×
Whisper Large V3 Turbo	20.92s	2 хв 4с	13--14×
Qwen3-ASR (видалено)	--	73s	4.7×

SenseVoice приблизно вдвічі повільніша за Parakeet V3 -- але все одно надзвичайно швидка. 27-хвилинний подкаст завершується менш ніж за 14 секунд. Ви натискаєте транскрибувати, робите один вдих, і текст вже на екрані.

Порівняйте це з Whisper за 2 хвилини 4 секунди або старою Qwen3 за 73 секунди. Архітектура має більше значення, ніж кількість параметрів.

Офіційна таблиця порівняння швидкості інференсу з статті FunAudioLLM: SenseVoice-Small (70мс на 10с аудіо) vs Whisper-Small (518мс) vs Whisper-Large-V3 (1281мс) - архітектура моделі, параметри, підтримувані мови, RTF та затримка

Офіційний бенчмарк інференсу зі статті FunAudioLLM: SenseVoice-Small обробляє 10с аудіо за 70мс (A800 GPU). Whisper-Large-V3 потребує 1 281мс. Це 18× різниця в чистій затримці інференсу.

Модель	Час завантаження	Пам'ять	Розмір завантаження
Parakeet V3	0.77s	~800 MB	465 MB
SenseVoice Small	0.81s	~700 MB	827 MB
Whisper Small	1.03s	~487 MB	600 MB
Whisper Large V3 Turbo	3.18s	~1.6 GB	3 GB

* Час завантаження та пам'ять виміряно на Apple M4 Pro, 32 GB.

SenseVoice завантажується менш ніж за секунду та використовує менше пам'яті, ніж Parakeet. На 8 GB Mac вона працює комфортно поруч з іншими додатками.

Чому SenseVoice швидша: Архітектура + Середовище виконання

Різниця в швидкості між Qwen3-ASR та SenseVoice пояснюється двома незалежними факторами.

Фактор 1: Архітектура моделі. Qwen3-ASR авторегресивна -- вона генерує текст токен за токеном, кожен залежить від попереднього. SenseVoice використовує неавторегресивний (NAR) енкодер, який обробляє все аудіо паралельно. Ця архітектурна різниця сама по собі робить SenseVoice фундаментально швидшою, незалежно від обладнання.

Фактор 2: Середовище виконання. Наша інтеграція Qwen3-ASR використовувала sherpa-onnx, що працювала на CPU. SenseVoice працює через Apple MLX, направляючи обчислення на GPU. Чи могла б Qwen3 також працювати на MLX? Так -- але вона все одно була б повільнішою за SenseVoice, тому що авторегресивне вузьке місце знаходиться в архітектурі, а не в середовищі виконання.

	Qwen3-ASR (стара)	SenseVoice (нова)
Архітектура	Авторегресивна (токен за токеном)	Неавторегресивна (паралельна)
Середовище виконання	sherpa-onnx (CPU)	Apple MLX (GPU)
27 хв китайська	224 секунди	13,83 секунди
Загальне прискорення	базова лінія	у 16,2× швидше
Кодова база	168 MB C-фреймворк + 2 249 рядків Swift	288 рядків Swift Actor

* Той самий 27-хвилинний китайський подкаст, Apple M4 Pro. Прискорення у 16,2× поєднує як архітектурні (NAR vs AR), так і покращення середовища виконання (GPU vs CPU).

Код також став простішим. Нова реалізація SenseVoice -- це єдиний Swift Actor на 288 рядків, який безпосередньо взаємодіє з MLX, замінюючи C-фреймворк на 168 MB. Менше коду, менше помилок, менший додаток.

П'ять мов, зроблених якісно

SenseVoice не намагається робити все. Вона підтримує п'ять мов:

Мова	SenseVoice-Small	Whisper-Large-V3	Переможець
Китайська (zh-CN)	10.78% CER	12.55% CER	SenseVoice (-14%)
Кантонська (yue)	7.09% CER	10.41% CER	SenseVoice (-32%)
Японська (ja)	11.96% CER	10.34% CER	Whisper (незначно)
Корейська (ko)	8.28% CER	5.59% CER	Whisper
Англійська (en)	14.71% WER	9.39% WER	Whisper (використовуйте Parakeet)

* Бенчмарк CommonVoice, CER = Character Error Rate, WER = Word Error Rate. Нижче -- краще. Джерело: стаття FunAudioLLM (2024). Затримка інференсу SenseVoice-Small: 70мс на 10с аудіо (A800 GPU), більш ніж у 15× швидше за Whisper-Large-V3.

Порівняння точності SenseVoice vs Whisper на бенчмарку CommonVoice для китайської, кантонської, англійської, японської, корейської та 25 інших мов - діаграма WER/CER

Бенчмарк CommonVoice: SenseVoice-Small (жовтий) vs Whisper-Small (синій) vs Whisper-Large-V3 (помаранчевий). Нижче -- краще. Джерело: стаття FunAudioLLM

Цифри розповідають чесну історію. SenseVoice перевершує Whisper за точністю для китайської та кантонської з значним відривом, тоді як Whisper точніший для японської, корейської та англійської. Але SenseVoice більш ніж у 15× швидша за Whisper-Large-V3. Для більшості реальних випадків використання різниця в швидкості важливіша за кілька відсоткових пунктів точності.

Результат для кантонської заслуговує окремої уваги. Whisper-Small показує 38,97% CER на кантонській -- майже непридатний для використання. Навіть Whisper-Large-V3 досягає лише 10,41%. SenseVoice показує 7,09%. До SenseVoice не було хорошого способу транскрибувати кантонську локально на Mac. Якщо ви розмовляєте кантонською, ця модель створена для вас.

Результат транскрипції корейською SenseVoice у Whisper Notes для Mac, що показує точний корейський текст з відео

Транскрипція корейською з SenseVoice: імпорт відео з субтитрами з мітками часу

Реальний тест: 27-хвилинний китайський подкаст

Ми транскрибували 27-хвилинний епізод Thirteen Invitations (十三邀), китайського подкасту-інтерв'ю, обома моделями -- SenseVoice та Whisper Large V3 Turbo на тому ж M4 Pro. ElevenLabs Scribe (хмарний) використовувався як еталон. Обидві локальні моделі роблять приблизно однакову кількість помилок, але різного типу:

	SenseVoice	Whisper Large V3
Час	13.83s	2 хв 4с
Помилки (зразок 5 хв)	~15--20	~12--15
Найгірша помилка	时差→食堂 (часовий пояс→їдальня)	西昌→西藏 (місто Січан→Тибет, 4 000 км різниці)
Тип помилок	Заміна омофонів	Географічні/фактичні помилки

* Ручне порівняння з ElevenLabs Scribe (хмарний еталон, також не ідеальний). Обидві локальні моделі правильно написали "根深蒂固", де Scribe помилився.

Порівнянна точність. У 9× швидше. Для реальної транскрипції китайською SenseVoice дає вам готовий транскрипт ще до того, як Whisper завершить завантаження.

Коли використовувати яку модель

Whisper Notes для Mac тепер включає чотири моделі розпізнавання мовлення. Кожна оптимізована для різних сценаріїв:

Вам потрібно...	Використовуйте цю модель	Чому
Англійська або європейські мови, максимальна швидкість	Parakeet V3	103× реального часу, найнижчий рівень помилок. За замовчуванням.
Китайська, японська, корейська або кантонська	SenseVoice Small	52--118× реального часу. Єдина модель з підтримкою кантонської.
Будь-яка з 99+ мов (арабська, тайська, російська тощо)	Whisper Large V3 Turbo	Найширша підтримка мов. Повільніша, але універсальна.
Менше використання пам'яті (старші Mac)	Whisper Small	487 MB пам'яті. Підходить для 8 GB Mac з іншими додатками.

Вибір моделі в Whisper Notes Mac із Parakeet V3, SenseVoice Small, Whisper Small та Whisper Large V3 Turbo з розмірами завантаження та підтримкою мов

Налаштування → Модель транскрипції: оберіть правильний рушій для вашої мови

Вибір моделі в Налаштуваннях показує всі чотири варіанти з розмірами завантаження, кількістю мов та вимогами до пам'яті. SenseVoice завантажується при першому використанні (~827 MB) та залишається на вашому пристрої.

Компроміси

SenseVoice не є універсальною моделлю. Ось що вона не може:

* Лише 5 мов. Якщо вам потрібна тайська, російська, арабська, гінді чи будь-яка з інших 90+ мов, які підтримує Whisper, залишайтеся з Whisper.

* Лише Mac. SenseVoice працює через Apple MLX, який потребує macOS. Вона недоступна на iPhone. Користувачі iOS мають Parakeet (для європейських мов) та Whisper.

* Особливість тихого аудіо. Під час дуже коротких або дуже тихих сегментів SenseVoice іноді може переключатися на китайський вивід незалежно від обраної мови. Ручне встановлення мови (замість "Auto") зменшує це.

* Без потокової обробки. На відміну від потокового режиму Whisper, SenseVoice обробляє повне аудіо після запису. Для довгих файлів вона автоматично сегментує в точках тиші та показує результати поступово.

Це архітектурні обмеження, а не помилки. Модель, навчена на 5 мовах, виконує ці 5 мов надзвичайно добре. Підтримка 99+ мов Whisper супроводжується повільнішою швидкістю та вищим рівнем помилок для кожної окремої мови.

Спробуйте

SenseVoice доступна в Whisper Notes для Mac v1.4.8 та пізніших версіях. Завантажте її з Налаштування → Модель транскрипції → SenseVoice Small (~827 MB). Потрібен Mac з Apple Silicon (M1 або новіший).

Якщо ви використовуєте Parakeet V3 і диктуєте переважно англійською, перемикатися не потрібно. SenseVoice -- для випадків, коли вам потрібна китайська, японська, корейська або кантонська -- і ви хочете швидко.

Завантажити для Mac

Повний список змін: whispernotes.app/changelog

Запитання чи відгуки: mac@whispernotes.app