Транскрибация Whisper: полный гид — API, приложения и офлайн (2026)

2 июля 2026 г.
·
9 min read
·Whisper Notes Team

Транскрибация Whisper — это перевод речи в текст с помощью Whisper, открытой ИИ-модели OpenAI, которую можно запускать в облаке, на сервере или полностью на своём устройстве. В этом гиде разберём, как устроен Whisper, какой размер модели выбрать, насколько он точен на самом деле и как быстрее всего запустить транскрибацию офлайн на Mac или iPhone.

Что такое Whisper на самом деле?

Whisper — это модель автоматического распознавания речи (ASR), которую OpenAI выпустила в сентябре 2022 года под лицензией MIT. Это трансформер типа «энкодер-декодер», обученный более чем на 680 000 часов многоязычного аудио. Он умеет делать транскрипцию примерно на 100 языках, включая русский, а также переводить речь на английский.

Главное для вас: веса модели открыты. В отличие от речевых API Google или Amazon, Whisper не обязан работать на чужом сервере. Вокруг него вырос целый мир локальных инструментов — whisper.cpp, faster-whisper и нативные приложения вроде Whisper Notes. Именно поэтому по-настоящему офлайновая, приватная транскрибация вообще возможна.

Размеры моделей Whisper: какую выбрать

Whisper выпускается в шести основных размерах. Чем больше модель — тем точнее и медленнее:

Модель Параметры Скорость Для чего
tiny 39M Самая быстрая Черновики, слабое железо
base 74M Очень быстрая Простое, чистое аудио
small 244M Быстрая Баланс скорости и точности на мобильных
medium 769M Средняя Сегодня почти никогда не лучший выбор
large-v3 1.55B Самая медленная Максимальная точность, сложное аудио
large-v3-turbo 809M ~в 5 раз быстрее large-v3 Выбор по умолчанию в 2026 году

Почти всем подойдёт large-v3-turbo: он сохраняет энкодер large-v3, но сокращает число слоёв декодера с 32 до 4 — почти та же точность при доле вычислений. Подробный бенчмарк — в статье Whisper Large V3 Turbo против V3.

Насколько точна транскрибация Whisper?

На чистом английском аудио большие модели достигают доли ошибок (WER) примерно 5–8% — для большинства практических задач это сравнимо с профессиональной расшифровкой человеком. Точность падает при фоновом шуме, сильном акценте, перебивающих друг друга голосах и на редких языках.

Знаменитая слабость Whisper — галлюцинации на тишине. Его авторегрессионный декодер иногда придумывает повторяющиеся фразы или «титры субтитров», когда никто не говорит. Новые модели решают эту проблему: Parakeet V3 от NVIDIA специально обучали на аудио без речи, и в наших тестах он не выдаёт ни одной галлюцинации (полный бенчмарк Parakeet V3 против Whisper).

Для китайского, японского, корейского и кантонского специализированная модель обгоняет Whisper и по скорости, и по пунктуации: см. SenseVoice против Whisper для языков CJK.

5 способов запустить транскрибацию Whisper

Способ Цена Приватность Настройка
API OpenAI $0.006 за минуту аудио Аудио загружается в облако API-ключ + код
openai-whisper (эталонный Python) Бесплатно 100% локально Окружение Python, желательно GPU
whisper.cpp / faster-whisper Бесплатно 100% локально Командная строка
Нативное приложение (Whisper Notes) $6.99 один раз, на Mac есть бесплатная пробная версия 100% на устройстве Не нужна
Онлайн-демо в браузере Бесплатные тарифы Аудио загружается в облако Не нужна

Простое правило: если вы живёте в терминале — faster-whisper великолепен. Если строите продукт — логичен API. А если вам просто нужна приватная расшифровка записей без Python, берите нативное приложение — ровно для этого и существуют Whisper-приложения для Mac.

Хотите шире посмотреть на офлайн-инструменты — включая варианты для Windows и Android? Читайте наш полный гид по офлайн-распознаванию речи.

Whisper против новых локальных моделей (2026)

Whisper открыл эпоху локальной транскрибации, но сегодня он уже не один. Скорость ниже замерена на Mac с M4 Pro:

Модель Языки Скорость Сильная сторона
Whisper Large V3 Turbo 100+ ~12x реального времени Самый широкий охват языков
Parakeet V3 25 (европейские, включая русский) ~100x реального времени WER 6,32%, никаких галлюцинаций на тишине
SenseVoice Small zh, ja, ko, yue, en ~52x реального времени Лучшая для китайского, японского, корейского

Все три модели работают локально в Whisper Notes, и переключать их можно для каждой записи отдельно. Сравнительные бенчмарки — на нашей странице сравнения моделей Whisper.

Как запустить транскрибацию Whisper офлайн на Mac и iPhone

Без командной строки, без Python, без облака:

  1. Скачайте Whisper Notes для Mac (бесплатная пробная версия) или для iPhone ($6.99 один раз).
  2. Выберите модель: Whisper Large V3 Turbo для широкого охвата языков, Parakeet V3 для русского и максимальной скорости, SenseVoice для CJK. Модель скачивается один раз и дальше навсегда работает офлайн.
  3. Записывайте прямо в приложении, диктуйте в любое поле с зажатой клавишей Fn или перетащите аудио- и видеофайлы (MP3, WAV, M4A, MP4).
  4. Текст появляется по мере обработки. Экспортируйте в TXT или SRT.

Сомневаетесь в слове «офлайн»? Включите сначала авиарежим. Транскрибация идёт на полной скорости — ничего никогда не загружается в сеть.

Parakeet V3 и русский язык: транскрибация быстрее Whisper

Parakeet V3 — модель, включённая в Whisper Notes по умолчанию на Mac и iPhone, — поддерживает 25 европейских языков, и русский среди них. Её средний показатель ошибок — 6,32% WER, а работает она примерно в 10 раз быстрее Whisper: часовая лекция, созвон или голосовые сообщения превращаются в текст за считанные минуты, целиком на вашем устройстве. Для повседневной транскрибации на русском — надиктовать заметку, расшифровать интервью, перегнать диктофонную запись в текст — этого более чем достаточно. А если нужна транскрипция на редких языках за пределами Европы, в один клик переключитесь на Whisper Large V3 Turbo (100+ языков, ~1,5 ГБ): обе модели установлены рядом и выбираются для каждой записи отдельно.

Модель Русский язык Скорость
Parakeet V3 Да (25 европейских языков, WER 6,32%) ~в 10 раз быстрее Whisper
Whisper Large V3 Turbo Да (100+ языков) Базовая скорость Whisper

Частые вопросы

Транскрибация Whisper — это бесплатно?

Сама модель бесплатна и открыта (лицензия MIT). Запуск через инструменты командной строки вроде whisper.cpp ничего не стоит, но требует настройки. API OpenAI берёт $0.006 за минуту аудио. Нативные приложения упаковывают модели за небольшую разовую плату: Whisper Notes стоит $6.99 один раз, а на Mac есть бесплатная пробная версия.

Работает ли транскрибация Whisper офлайн, без интернета?

Да — в этом и смысл открытых весов. Как только файл модели оказался на устройстве, интернет больше не нужен. Whisper Notes запускает Whisper Large V3 Turbo на Apple Silicon через CoreML/Metal полностью офлайн. Проверить легко: включите авиарежим.

Какая модель Whisper самая точная?

Максимальная «сырая» точность у large-v3. Но large-v3-turbo отстаёт от него на доли процента WER, работая примерно в 5 раз быстрее, — поэтому сегодня именно turbo стоит по умолчанию в большинстве инструментов.

Насколько хорошо Whisper понимает русский?

Русский — один из хорошо представленных в обучающих данных языков, и Whisper справляется с ним уверенно. А Parakeet V3 распознаёт русский ещё и примерно в 10 раз быстрее (средний WER 6,32%). Для китайского, японского, корейского и кантонского лучший выбор — SenseVoice: точнее пунктуация и гораздо выше скорость на Apple Silicon.

Есть ли приложение для транскрибации Whisper на iPhone?

Да. Whisper Notes запускает модели Whisper, оптимизированные под Neural Engine iPhone (iPhone 12 и новее): записывайте, импортируйте из Диктофона или «Файлов» и получайте расшифровку целиком на устройстве за $6.99 без подписки.