Транскрибація Whisper: моделі, швидкість і як запустити офлайн (гід 2026)

2 липня 2026 р.
·
9 min read
·Whisper Notes Team

Транскрибація Whisper — це перетворення мовлення на текст за допомогою Whisper від OpenAI, відкритої AI-моделі, яку можна запускати у хмарі, на сервері або повністю на власному пристрої. У цьому гіді розберемо, як працює Whisper, який розмір моделі обрати, наскільки вона насправді точна та як найшвидше запустити її офлайн на Mac чи iPhone.

Що таке Whisper насправді?

Whisper — це модель автоматичного розпізнавання мовлення (ASR), яку OpenAI випустила у вересні 2022 року під ліцензією MIT. Це трансформер типу «енкодер-декодер», навчений на понад 680 000 годин багатомовного аудіо; він транскрибує приблизно 100 мовами і вміє перекладати англійською.

Найважливіше для вас: ваги моделі відкриті. На відміну від мовних API Google чи Amazon, Whisper не мусить працювати на чужому сервері. Довкола нього виросла ціла екосистема локальних інструментів — whisper.cpp, faster-whisper і нативні застосунки на кшталт Whisper Notes. Саме це робить можливою по-справжньому офлайнову, приватну транскрибацію.

Розміри моделей Whisper: яку обрати

Whisper має шість основних розмірів. Більша модель — точніша, але повільніша:

Модель Параметри Швидкість Найкраще для
tiny 39M Найшвидша Швидкі чернетки, слабке залізо
base 74M Дуже швидка Просте, чисте аудіо
small 244M Швидка Хороший баланс швидкості й точності на мобільних
medium 769M Помірна Сьогодні рідко буває правильним вибором
large-v3 1.55B Найповільніша Максимальна точність, складне аудіо
large-v3-turbo 809M ~у 5 разів швидша за large-v3 Вибір за замовчуванням у 2026 році

Майже всім підійде large-v3-turbo: вона зберігає енкодер large-v3, але скорочує кількість шарів декодера з 32 до 4, даючи майже ту саму точність за частку обчислень. Детальний бенчмарк — у статті Whisper Large V3 Turbo проти V3.

Наскільки точна транскрибація Whisper?

На чистому англійському аудіо великі моделі досягають частки помилок у словах (WER) приблизно 5-8% — для більшості практичних завдань це порівнянно з професійною людською транскрипцією. Точність падає через фоновий шум, сильні акценти, накладання голосів і малоресурсні мови.

Знаменита слабкість Whisper — галюцинації під час тиші. Її авторегресивний декодер іноді вигадує повторювані фрази чи «титри субтитрів», коли ніхто не говорить. Новіші моделі це виправляють: Parakeet V3 від NVIDIA спеціально навчали на аудіо без мовлення, і в наших тестах вона не видає жодної галюцинації (повний бенчмарк Parakeet V3 проти Whisper).

Для китайської, японської, корейської та кантонської спеціалізована модель обганяє Whisper і за швидкістю, і за пунктуацією: див. SenseVoice проти Whisper для мов CJK.

5 способів запустити транскрибацію Whisper

Спосіб Вартість Приватність Налаштування
OpenAI API Оплата за хвилину аудіо Аудіо завантажується в мережу API-ключ + код
openai-whisper (еталонний Python) Безкоштовно 100% локально Середовище Python, бажано GPU
whisper.cpp / faster-whisper Безкоштовно 100% локально Командний рядок
Нативний застосунок (Whisper Notes) $6.99 один раз, безкоштовна пробна версія на Mac 100% на пристрої Не потрібне
Веб-демо Безкоштовні тарифи Аудіо завантажується в мережу Не потрібне

Просте правило: якщо ви живете в терміналі — faster-whisper чудовий. Будуєте продукт — логічним є API. А якщо вам просто потрібно приватно розшифрувати записи, не торкаючись Python, беріть нативний застосунок — саме для цього й існують Whisper-застосунки для Mac.

Хочете ширше поглянути на офлайн-інструменти — включно з варіантами для Windows та Android? Читайте наш повний гід з офлайн-розпізнавання мовлення.

Whisper проти новіших локальних моделей (2026)

Whisper започаткувала еру локальної транскрибації, але вже не самотня. Швидкості нижче виміряні на Mac з M4 Pro:

Модель Мови Швидкість Головна перевага
Whisper Large V3 Turbo 100+ ~12x реального часу Найширше покриття мов
Parakeet V3 25 (європейські) ~100x реального часу WER 6,32%, жодних галюцинацій на тиші
SenseVoice Small zh, ja, ko, yue, en ~52x реального часу Найкраща для китайської, японської, корейської

Усі три моделі працюють локально у Whisper Notes, і перемикати їх можна для кожного запису окремо. Порівняльні бенчмарки — на нашій сторінці порівняння моделей Whisper.

Як запустити транскрибацію Whisper офлайн на Mac та iPhone

Без командного рядка, без Python, без хмари:

  1. Завантажте Whisper Notes для Mac (безкоштовна пробна версія) або для iPhone ($6.99 один раз).
  2. Оберіть модель: Whisper Large V3 Turbo для широкого покриття мов, Parakeet V3 для швидкості на англійській та інших європейських мовах (включно з українською), SenseVoice для CJK. Модель завантажується один раз і далі назавжди працює офлайн.
  3. Записуйте напряму, диктуйте в будь-якому застосунку, утримуючи Fn, або перетягуйте аудіо- та відеофайли (MP3, WAV, M4A, MP4).
  4. Текст з'являється в міру обробки. Експортуйте у TXT або SRT.

Сумніваєтеся щодо «офлайн»? Спершу ввімкніть авіарежим. Транскрибація йде на повній швидкості — нічого ніколи не завантажується в мережу.

Наскільки точна транскрибація Whisper українською? Яку модель обрати?

Для української найкращий вибір — Parakeet V3, модель за замовчуванням у Whisper Notes. Вона підтримує 25 європейських мов, включно з українською, працює приблизно в 10 разів швидше за Whisper і показує точність класу 6,32% WER: годинний запис перетворюється на текст за лічені хвилини, повністю на вашому пристрої. Якщо ж потрібна мова поза європейським списком, одним дотиком перемкніться на Whisper Large V3 Turbo (100+ мов, ~1,5 ГБ) — обидві моделі встановлені поруч і вибираються для кожного запису окремо.

Часті запитання

Чи безкоштовна транскрибація Whisper?

Сама модель безкоштовна й відкрита (ліцензія MIT). Запуск через інструменти командного рядка на кшталт whisper.cpp нічого не коштує, але потребує налаштування. API від OpenAI бере оплату за хвилину аудіо. Нативні застосунки пакують моделі за невелику плату — Whisper Notes коштує $6.99 один раз, із безкоштовною пробною версією на Mac.

Чи може транскрибація Whisper працювати офлайн?

Так — у цьому й сенс відкритих ваг. Щойно файл моделі опинився на вашому пристрої, інтернет більше не потрібен. Whisper Notes запускає Whisper Large V3 Turbo на Apple Silicon через CoreML/Metal повністю офлайн. Перевірити можна авіарежимом.

Яка модель Whisper найточніша?

Найкраща «сира» точність у large-v3. large-v3-turbo відстає від неї лише на частки відсотка WER, працюючи приблизно в 5 разів швидше — тому сьогодні саме вона стоїть за замовчуванням у більшості інструментів.

Чи підтримує Whisper мою мову?

Whisper покриває близько 100 мов, найкраще — високоресурсні (англійська, іспанська, німецька, французька тощо). Для китайської, японської, корейської та кантонської SenseVoice дає кращу пунктуацію та значно вищу швидкість на Apple Silicon.

Чи є застосунок для транскрибації Whisper на iPhone?

Так. Whisper Notes запускає моделі Whisper, оптимізовані під Neural Engine iPhone (iPhone 12 і новіші) — записуйте, імпортуйте з Диктофона чи Файлів і транскрибуйте повністю на пристрої за $6.99, без підписки.