Ми створили офлайн-транскрипцію зустрічей для Mac. Записує дзвінки Zoom, Teams та Google Meet, транскрибує їх локально за допомогою Parakeet V3 і створює резюме з Gemma 4. Без хмари, без бота у дзвінку. $6.99 одноразово.
Запис дзвінка Zoom у Whisper Notes — "Я" та "Інші" позначені за джерелом звуку
Типовий понеділок
10 ранку, Zoom-дзвінок з клієнтом. Ви відкриваєте Whisper Notes, натискаєте запис. Застосунок одночасно захоплює системний звук і ваш мікрофон — ніхто на зустрічі не бачить бота, ніхто не отримує сповіщення, нічого не з'являється у списку учасників.
Через годину дзвінок завершується. Ви зупиняєте запис. Parakeet V3 транскрибує 60 хвилин аудіо приблизно за хвилину, повністю на Neural Engine вашого Mac. Натискаєте Резюме — Gemma 4 витягує ключові моменти. Натискаєте Завдання — витягує кожне завдання та дедлайн, згадані під час розмови. Ви надсилаєте нотатки зустрічі клієнту. Аудіо ніколи не залишало ваш комп'ютер.
Ось і весь робочий процес. Записати, транскрибувати, підсумувати. Все локально.
Що він робить
Запис
Whisper Notes захоплює системний звук — звук, який виходить з ваших динаміків або навушників. Якщо ви можете це почути на вашому Mac, ми можемо це транскрибувати. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, подкасти або будь-який інший застосунок. Також записує ваш мікрофон одночасно, тому обидві сторони розмови фіксуються.
Жодний бот не приєднується до дзвінка. Це важливіше, ніж здається. Якщо ви коли-небудь бачили "Otter.ai Notetaker has joined the meeting" у Zoom-дзвінку, ви знаєте, що відбувається далі — хтось запитує, що це, комусь стає незручно, і розмова змінюється. З захопленням системного звуку ніхто не знає, що ви записуєте, крім вас.
Транскрипція
Parakeet V3 працює на Apple Silicon через CoreML. Обробляє англійську та 24 європейські мови зі швидкістю приблизно 60× від реального часу — 60-хвилинна зустріч завершується приблизно за хвилину. Для китайської, японської або корейської SenseVoice обробляє CJK зі швидкістю 52×. Pyannote VAD видаляє тишу перед транскрипцією, тому модель обробляє лише реальне мовлення.
Транскрипція з мітками часу та вбудованим редагуванням — натисніть на будь-який сегмент, щоб перейти до цього моменту в аудіо
Функції ШІ — все локально
Gemma 4 працює на вашому Mac. Без API-ключа, без хмарних викликів, без обмежень використання. Після транскрипції:
- •Резюме — головні моменти 60-хвилинної зустрічі за секунди
- •Завдання — задачі та дедлайни, витягнуті автоматично
- •Переклад — Apple Intelligence перекладає транскрипцію іншою мовою
- •Чат — запитайте "що ми узгодили щодо ціни?" та отримайте відповідь на основі транскрипції
Бічна панель ШІ Gemma 4 — Резюме, Завдання, Переклад і вільний чат, все працює локально
Чому ми зробили це саме так
Аудіо зустрічей — одні з найчутливіших даних, які виробляє компанія. Переговори з клієнтами, HR-огляди, обговорення ради директорів, юридичні консультації — той тип розмов, де один неправильний витік завершує кар'єри.
Більшість інструментів транскрипції завантажують це аудіо на хмарні сервери, обробляють його там і зберігають згідно зі своїми політиками зберігання даних. Деякі додають бота до дзвінка, якого бачать усі. Деякі зберігають ваші записи необмежено для "покращення моделей."
Ми обрали інший підхід: все працює на вашому Mac. Модель ASR, LLM, зберігання аудіо — все локально. Немає сервера, який можна зламати, немає політики зберігання даних для читання, немає ризику повістки третьої сторони. Для команд під GDPR, HIPAA або адвокатською таємницею ця архітектура — це суть.
Порівняння
| Whisper Notes | Otter.ai | Fireflies | Jamie | |
|---|---|---|---|---|
| Обробка | 100% на пристрої | Хмара | Хмара | Гібрид |
| Бот у дзвінку | Ні | Так | Так | Ні |
| Ціна | $6.99 одноразово | $16.99/міс (Pro) | від $18/міс | $24/міс |
| Працює офлайн | Так | Ні | Ні | Частково |
| ШІ-резюме | Локально (Gemma 4) | Хмара | Хмара | Хмара |
| Діаризація мовців | Ще ні | Так | Так | Так |
Різні зустрічі, різні мови
Оберіть модель, що відповідає мові вашої зустрічі:
| Англійська / Європейські | Parakeet V3 — ~60× реальний час, 6.32% WER, нуль галюцинацій на тиші |
| Китайська / Японська / Корейська | SenseVoice — 52× швидкість, підтримує кантонську, GPU-прискорення через MLX |
| Інші мови | Whisper Large V3 Turbo — 99 мов, висока точність, повільніший |
Чого не вистачає
У нас ще немає діаризації мовців. Наразі Whisper Notes позначає аудіо як "Я" (ваш мікрофон) та "Інші" (системний звук) — цього достатньо для більшості зустрічей один на один та невеликих груп. Але для дзвінка на 10 осіб, де потрібно знати, хто що сказав, цього недостатньо.
Це очевидний наступний крок, і ми над цим працюємо. Мета — локальна діаризація, яка працює разом з Parakeet V3 та SenseVoice, без надсилання аудіо будь-куди.