Транскрибация Whisper — это перевод речи в текст с помощью Whisper, открытой ИИ-модели OpenAI, которую можно запускать в облаке, на сервере или полностью на своём устройстве. В этом гиде разберём, как устроен Whisper, какой размер модели выбрать, насколько он точен на самом деле и как быстрее всего запустить транскрибацию офлайн на Mac или iPhone.
Что такое Whisper на самом деле?
Whisper — это модель автоматического распознавания речи (ASR), которую OpenAI выпустила в сентябре 2022 года под лицензией MIT. Это трансформер типа «энкодер-декодер», обученный более чем на 680 000 часов многоязычного аудио. Он умеет делать транскрипцию примерно на 100 языках, включая русский, а также переводить речь на английский.
Главное для вас: веса модели открыты. В отличие от речевых API Google или Amazon, Whisper не обязан работать на чужом сервере. Вокруг него вырос целый мир локальных инструментов — whisper.cpp, faster-whisper и нативные приложения вроде Whisper Notes. Именно поэтому по-настоящему офлайновая, приватная транскрибация вообще возможна.
Размеры моделей Whisper: какую выбрать
Whisper выпускается в шести основных размерах. Чем больше модель — тем точнее и медленнее:
| Модель | Параметры | Скорость | Для чего |
|---|---|---|---|
| tiny | 39M | Самая быстрая | Черновики, слабое железо |
| base | 74M | Очень быстрая | Простое, чистое аудио |
| small | 244M | Быстрая | Баланс скорости и точности на мобильных |
| medium | 769M | Средняя | Сегодня почти никогда не лучший выбор |
| large-v3 | 1.55B | Самая медленная | Максимальная точность, сложное аудио |
| large-v3-turbo | 809M | ~в 5 раз быстрее large-v3 | Выбор по умолчанию в 2026 году |
Почти всем подойдёт large-v3-turbo: он сохраняет энкодер large-v3, но сокращает число слоёв декодера с 32 до 4 — почти та же точность при доле вычислений. Подробный бенчмарк — в статье Whisper Large V3 Turbo против V3.
Насколько точна транскрибация Whisper?
На чистом английском аудио большие модели достигают доли ошибок (WER) примерно 5–8% — для большинства практических задач это сравнимо с профессиональной расшифровкой человеком. Точность падает при фоновом шуме, сильном акценте, перебивающих друг друга голосах и на редких языках.
Знаменитая слабость Whisper — галлюцинации на тишине. Его авторегрессионный декодер иногда придумывает повторяющиеся фразы или «титры субтитров», когда никто не говорит. Новые модели решают эту проблему: Parakeet V3 от NVIDIA специально обучали на аудио без речи, и в наших тестах он не выдаёт ни одной галлюцинации (полный бенчмарк Parakeet V3 против Whisper).
Для китайского, японского, корейского и кантонского специализированная модель обгоняет Whisper и по скорости, и по пунктуации: см. SenseVoice против Whisper для языков CJK.
5 способов запустить транскрибацию Whisper
| Способ | Цена | Приватность | Настройка |
|---|---|---|---|
| API OpenAI | $0.006 за минуту аудио | Аудио загружается в облако | API-ключ + код |
| openai-whisper (эталонный Python) | Бесплатно | 100% локально | Окружение Python, желательно GPU |
| whisper.cpp / faster-whisper | Бесплатно | 100% локально | Командная строка |
| Нативное приложение (Whisper Notes) | $6.99 один раз, на Mac есть бесплатная пробная версия | 100% на устройстве | Не нужна |
| Онлайн-демо в браузере | Бесплатные тарифы | Аудио загружается в облако | Не нужна |
Простое правило: если вы живёте в терминале — faster-whisper великолепен. Если строите продукт — логичен API. А если вам просто нужна приватная расшифровка записей без Python, берите нативное приложение — ровно для этого и существуют Whisper-приложения для Mac.
Хотите шире посмотреть на офлайн-инструменты — включая варианты для Windows и Android? Читайте наш полный гид по офлайн-распознаванию речи.
Whisper против новых локальных моделей (2026)
Whisper открыл эпоху локальной транскрибации, но сегодня он уже не один. Скорость ниже замерена на Mac с M4 Pro:
| Модель | Языки | Скорость | Сильная сторона |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | ~12x реального времени | Самый широкий охват языков |
| Parakeet V3 | 25 (европейские, включая русский) | ~100x реального времени | WER 6,32%, никаких галлюцинаций на тишине |
| SenseVoice Small | zh, ja, ko, yue, en | ~52x реального времени | Лучшая для китайского, японского, корейского |
Все три модели работают локально в Whisper Notes, и переключать их можно для каждой записи отдельно. Сравнительные бенчмарки — на нашей странице сравнения моделей Whisper.
Как запустить транскрибацию Whisper офлайн на Mac и iPhone
Без командной строки, без Python, без облака:
- Скачайте Whisper Notes для Mac (бесплатная пробная версия) или для iPhone ($6.99 один раз).
- Выберите модель: Whisper Large V3 Turbo для широкого охвата языков, Parakeet V3 для русского и максимальной скорости, SenseVoice для CJK. Модель скачивается один раз и дальше навсегда работает офлайн.
- Записывайте прямо в приложении, диктуйте в любое поле с зажатой клавишей Fn или перетащите аудио- и видеофайлы (MP3, WAV, M4A, MP4).
- Текст появляется по мере обработки. Экспортируйте в TXT или SRT.
Сомневаетесь в слове «офлайн»? Включите сначала авиарежим. Транскрибация идёт на полной скорости — ничего никогда не загружается в сеть.
Parakeet V3 и русский язык: транскрибация быстрее Whisper
Parakeet V3 — модель, включённая в Whisper Notes по умолчанию на Mac и iPhone, — поддерживает 25 европейских языков, и русский среди них. Её средний показатель ошибок — 6,32% WER, а работает она примерно в 10 раз быстрее Whisper: часовая лекция, созвон или голосовые сообщения превращаются в текст за считанные минуты, целиком на вашем устройстве. Для повседневной транскрибации на русском — надиктовать заметку, расшифровать интервью, перегнать диктофонную запись в текст — этого более чем достаточно. А если нужна транскрипция на редких языках за пределами Европы, в один клик переключитесь на Whisper Large V3 Turbo (100+ языков, ~1,5 ГБ): обе модели установлены рядом и выбираются для каждой записи отдельно.
| Модель | Русский язык | Скорость |
|---|---|---|
| Parakeet V3 | Да (25 европейских языков, WER 6,32%) | ~в 10 раз быстрее Whisper |
| Whisper Large V3 Turbo | Да (100+ языков) | Базовая скорость Whisper |
Частые вопросы
Транскрибация Whisper — это бесплатно?
Сама модель бесплатна и открыта (лицензия MIT). Запуск через инструменты командной строки вроде whisper.cpp ничего не стоит, но требует настройки. API OpenAI берёт $0.006 за минуту аудио. Нативные приложения упаковывают модели за небольшую разовую плату: Whisper Notes стоит $6.99 один раз, а на Mac есть бесплатная пробная версия.
Работает ли транскрибация Whisper офлайн, без интернета?
Да — в этом и смысл открытых весов. Как только файл модели оказался на устройстве, интернет больше не нужен. Whisper Notes запускает Whisper Large V3 Turbo на Apple Silicon через CoreML/Metal полностью офлайн. Проверить легко: включите авиарежим.
Какая модель Whisper самая точная?
Максимальная «сырая» точность у large-v3. Но large-v3-turbo отстаёт от него на доли процента WER, работая примерно в 5 раз быстрее, — поэтому сегодня именно turbo стоит по умолчанию в большинстве инструментов.
Насколько хорошо Whisper понимает русский?
Русский — один из хорошо представленных в обучающих данных языков, и Whisper справляется с ним уверенно. А Parakeet V3 распознаёт русский ещё и примерно в 10 раз быстрее (средний WER 6,32%). Для китайского, японского, корейского и кантонского лучший выбор — SenseVoice: точнее пунктуация и гораздо выше скорость на Apple Silicon.
Есть ли приложение для транскрибации Whisper на iPhone?
Да. Whisper Notes запускает модели Whisper, оптимизированные под Neural Engine iPhone (iPhone 12 и новее): записывайте, импортируйте из Диктофона или «Файлов» и получайте расшифровку целиком на устройстве за $6.99 без подписки.