Mac पर ऑफलाइन मीटिंग ट्रांसक्रिप्शन: Zoom, Teams और Meet को स्थानीय रूप से रिकॉर्ड करें

13 मई 2026
·
8 min read
·Whisper Notes Team

हमने Mac के लिए ऑफ़लाइन मीटिंग ट्रांसक्रिप्शन बनाया। यह Zoom, Teams और Google Meet कॉल रिकॉर्ड करता है, Parakeet V3 से लोकल ट्रांसक्रिप्शन करता है, और Gemma 4 से सारांश तैयार करता है। कोई क्लाउड नहीं, कॉल में कोई बोट नहीं। एक बार $6.99

Whisper Notes Mac पर Zoom मीटिंग रिकॉर्ड कर रहा है, रीयल-टाइम ट्रांसक्रिप्शन में मैं और अन्य स्पीकर लेबल दिख रहे हैं

Whisper Notes में Zoom कॉल रिकॉर्ड करते हुए — ऑडियो स्रोत के अनुसार "मैं" और "अन्य" लेबल किए जाते हैं

एक सामान्य सोमवार

सुबह 10 बजे, एक क्लाइंट के साथ Zoom कॉल। आप Whisper Notes खोलते हैं, रिकॉर्ड पर क्लिक करते हैं। ऐप सिस्टम ऑडियो और आपका माइक्रोफ़ोन एक साथ कैप्चर करता है — मीटिंग में किसी को कोई बोट नहीं दिखता, किसी को नोटिफ़िकेशन नहीं मिलता, प्रतिभागी सूची में कुछ भी नहीं दिखता।

एक घंटे बाद कॉल खत्म होती है। आप रिकॉर्डिंग बंद करते हैं। Parakeet V3 लगभग एक मिनट में 60 मिनट का ऑडियो ट्रांसक्राइब कर देता है, पूरी तरह आपके Mac के Neural Engine पर। सारांश पर टैप करें — Gemma 4 मुख्य बिंदु निकालता है। कार्य आइटम पर टैप करें — हर टास्क और डेडलाइन अपने आप निकाल ली जाती है। आप मीटिंग नोट्स क्लाइंट को भेज देते हैं। ऑडियो आपकी मशीन से कभी बाहर नहीं गया।

बस यही पूरा वर्कफ़्लो है। रिकॉर्ड करो, ट्रांसक्राइब करो, सारांश बनाओ। सब कुछ लोकल।

यह क्या करता है

रिकॉर्डिंग

Whisper Notes सिस्टम ऑडियो कैप्चर करता है — वो आवाज़ जो आपके स्पीकर या हेडफ़ोन से आती है। अगर आप इसे अपने Mac पर सुन सकते हैं, तो हम इसे ट्रांसक्राइब कर सकते हैं। Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, पॉडकास्ट, या कोई भी अन्य ऐप। यह आपका माइक्रोफ़ोन भी साथ में रिकॉर्ड करता है, ताकि बातचीत के दोनों पक्ष कैप्चर हों।

कॉल में कोई बोट नहीं जुड़ता। यह बात सुनने में जितनी लगती है, उससे ज़्यादा मायने रखती है। अगर आपने कभी Zoom कॉल में "Otter.ai Notetaker has joined the meeting" पॉप अप होते देखा है, तो आप जानते हैं आगे क्या होता है — कोई पूछता है ये क्या है, कोई असहज हो जाता है, और बातचीत का रुख बदल जाता है। सिस्टम ऑडियो कैप्चर के साथ, आपके अलावा किसी को पता नहीं चलता कि आप रिकॉर्ड कर रहे हैं।

ट्रांसक्रिप्शन

Parakeet V3 CoreML के ज़रिए Apple Silicon पर चलता है। यह अंग्रेज़ी और 24 यूरोपीय भाषाओं को लगभग 60x रीयल-टाइम स्पीड से प्रोसेस करता है — 60 मिनट की मीटिंग लगभग एक मिनट में पूरी हो जाती है। चीनी, जापानी या कोरियन के लिए, SenseVoice CJK को 52x स्पीड से हैंडल करता है। Pyannote VAD ट्रांसक्रिप्शन से पहले मौन हटा देता है, ताकि मॉडल सिर्फ़ वास्तविक बोली को प्रोसेस करे।

Mac पर Whisper Notes का ट्रांसक्रिप्ट व्यू जिसमें इनलाइन टेक्स्ट एडिटिंग, टाइमस्टैम्प और ऑडियो वेवफ़ॉर्म दिख रहा है

टाइमस्टैम्प और इनलाइन एडिटिंग के साथ ट्रांसक्रिप्ट — किसी भी सेगमेंट पर क्लिक करें और ऑडियो में उस पल पर जाएँ

AI सुविधाएँ — सब लोकल

Gemma 4 आपके Mac पर चलता है। कोई API key नहीं, कोई क्लाउड कॉल नहीं, कोई उपयोग सीमा नहीं। ट्रांसक्रिप्शन के बाद:

  • सारांश — 60 मिनट की मीटिंग के मुख्य बिंदु, कुछ सेकंड में
  • कार्य आइटम — टास्क और डेडलाइन, अपने आप निकाले गए
  • अनुवाद — Apple Intelligence ट्रांसक्रिप्ट को दूसरी भाषा में अनुवाद करता है
  • चैट — पूछें "हमने प्राइसिंग पर क्या तय किया?" और ट्रांसक्रिप्ट पर आधारित जवाब पाएँ
Whisper Notes AI असिस्टेंट साइडबार जिसमें सारांश, कार्य आइटम, अनुवाद बटन और चैट इंटरफ़ेस है

Gemma 4 AI साइडबार — सारांश, कार्य आइटम, अनुवाद, और फ्री-फ़ॉर्म चैट, सब कुछ लोकली चलता है

हमने इसे इस तरह क्यों बनाया

मीटिंग ऑडियो किसी कंपनी का सबसे संवेदनशील डेटा होता है। क्लाइंट बातचीत, HR रिव्यू, बोर्ड चर्चा, कानूनी परामर्श — ऐसी बातचीत जहाँ एक गलत लीक करियर खत्म कर सकता है।

ज़्यादातर ट्रांसक्रिप्शन टूल इस ऑडियो को क्लाउड सर्वर पर अपलोड करते हैं, वहाँ प्रोसेस करते हैं, और अपनी डेटा रिटेंशन पॉलिसी के अनुसार स्टोर करते हैं। कुछ कॉल में एक बोट जोड़ते हैं जो सबको दिखता है। कुछ आपकी रिकॉर्डिंग अनिश्चित काल तक रखते हैं "मॉडल सुधार" के लिए।

हमने एक अलग तरीका अपनाया: सब कुछ आपके Mac पर चलता है। ASR मॉडल, LLM, ऑडियो स्टोरेज — सब लोकल। कोई सर्वर नहीं जिसे ब्रीच किया जाए, कोई डेटा रिटेंशन पॉलिसी नहीं जो पढ़नी पड़े, कोई थर्ड-पार्टी सबपीना रिस्क नहीं। GDPR, HIPAA, या वकील-मुवक्किल विशेषाधिकार के तहत काम करने वाली टीमों के लिए, यह आर्किटेक्चर ही मुख्य बात है।

तुलना

Whisper Notes Otter.ai Fireflies Jamie
प्रोसेसिंग 100% ऑन-डिवाइस क्लाउड क्लाउड हाइब्रिड
कॉल में बोट नहीं हाँ हाँ नहीं
कीमत एक बार $6.99 $16.99/माह (Pro) $18/माह से $24/माह
ऑफ़लाइन काम करता है हाँ नहीं नहीं आंशिक
AI सारांश लोकल (Gemma 4) क्लाउड क्लाउड क्लाउड
स्पीकर डायराइज़ेशन अभी नहीं हाँ हाँ हाँ

अलग मीटिंग, अलग भाषाएँ

अपनी मीटिंग की भाषा से मेल खाता मॉडल चुनें:

अंग्रेज़ी / यूरोपीय Parakeet V3 — ~60x रीयल-टाइम, 6.32% WER, मौन पर शून्य हैल्यूसिनेशन
चीनी / जापानी / कोरियन SenseVoice — 52x स्पीड, कैंटोनीज़ सपोर्ट, MLX के ज़रिए GPU-एक्सेलेरेटेड
अन्य भाषाएँ Whisper Large V3 Turbo — 99 भाषाएँ, उच्च सटीकता, धीमा

क्या कमी है

हमारे पास अभी स्पीकर डायराइज़ेशन नहीं है। फ़िलहाल Whisper Notes ऑडियो को "मैं" (आपका माइक्रोफ़ोन) और "अन्य" (सिस्टम ऑडियो) के रूप में लेबल करता है — जो ज़्यादातर वन-ऑन-वन और छोटे ग्रुप मीटिंग के लिए काफ़ी है। लेकिन 10 लोगों की कॉल में जहाँ आपको जानना हो कि किसने क्या कहा, यह पर्याप्त नहीं है।

यह अगला स्पष्ट कदम है और हम इस पर काम कर रहे हैं। लक्ष्य है लोकल डायराइज़ेशन जो Parakeet V3 और SenseVoice के साथ चले, बिना ऑडियो कहीं भेजे।