Mac-এ অফলাইন মিটিং ট্রান্সক্রিপশন: Zoom, Teams ও Meet স্থানীয়ভাবে রেকর্ড করুন

১৩ মে, ২০২৬
·
8 min read
·Whisper Notes Team

আমরা Mac-এর জন্য অফলাইন মিটিং ট্রান্সক্রিপশন তৈরি করেছি। এটি Zoom, Teams এবং Google Meet কল রেকর্ড করে, Parakeet V3 দিয়ে লোকালি ট্রান্সক্রাইব করে, এবং Gemma 4 দিয়ে সারসংক্ষেপ তৈরি করে। কোনো ক্লাউড নেই, কলে কোনো বট নেই। একবারই $6.99

Whisper Notes Mac-এ Zoom মিটিং রেকর্ড করছে, রিয়েল-টাইম ট্রান্সক্রিপশনে আমি এবং অন্যরা স্পিকার লেবেল দেখাচ্ছে

Whisper Notes-এ Zoom কল রেকর্ড করা হচ্ছে — অডিও সোর্স অনুযায়ী "আমি" এবং "অন্যরা" লেবেল করা হয়

একটি সাধারণ সোমবার

সকাল ১০টা, একজন ক্লায়েন্টের সাথে Zoom কল। আপনি Whisper Notes খোলেন, রেকর্ড-এ ক্লিক করেন। অ্যাপটি একসাথে সিস্টেম অডিও এবং আপনার মাইক্রোফোন ক্যাপচার করে — মিটিংয়ে কেউ বট দেখে না, কেউ নোটিফিকেশন পায় না, অংশগ্রহণকারী তালিকায় কিছু দেখায় না।

এক ঘণ্টা পর কল শেষ। আপনি রেকর্ডিং বন্ধ করেন। Parakeet V3 প্রায় এক মিনিটে ৬০ মিনিটের অডিও ট্রান্সক্রাইব করে ফেলে, সম্পূর্ণ আপনার Mac-এর Neural Engine-এ। সারসংক্ষেপ-এ ট্যাপ করুন — Gemma 4 মূল পয়েন্টগুলো বের করে। কাজের আইটেম-এ ট্যাপ করুন — প্রতিটি টাস্ক এবং ডেডলাইন স্বয়ংক্রিয়ভাবে বের হয়ে আসে। আপনি মিটিং নোটস ক্লায়েন্টকে পাঠিয়ে দেন। অডিও কখনো আপনার মেশিন ছেড়ে যায়নি।

এটাই পুরো ওয়ার্কফ্লো। রেকর্ড করুন, ট্রান্সক্রাইব করুন, সারসংক্ষেপ করুন। সব লোকাল।

এটি কী করে

রেকর্ডিং

Whisper Notes সিস্টেম অডিও ক্যাপচার করে — আপনার স্পিকার বা হেডফোন থেকে বের হওয়া শব্দ। আপনি যদি Mac-এ শুনতে পান, আমরা ট্রান্সক্রাইব করতে পারি। Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, পডকাস্ট, বা যেকোনো অন্য অ্যাপ। এটি একই সাথে আপনার মাইক্রোফোনও রেকর্ড করে, তাই কথোপকথনের উভয় পক্ষ ক্যাপচার হয়।

কলে কোনো বট যোগ দেয় না। এটি শোনার চেয়ে বেশি গুরুত্বপূর্ণ। আপনি যদি কখনো Zoom কলে "Otter.ai Notetaker has joined the meeting" পপ আপ হতে দেখে থাকেন, আপনি জানেন এরপর কী হয় — কেউ জিজ্ঞেস করে এটি কী, কেউ অস্বস্তিতে পড়ে, এবং কথোপকথনের ধরন বদলে যায়। সিস্টেম অডিও ক্যাপচারে, আপনি ছাড়া কেউ জানে না যে আপনি রেকর্ড করছেন।

ট্রান্সক্রিপশন

Parakeet V3 CoreML-এর মাধ্যমে Apple Silicon-এ চলে। এটি ইংরেজি এবং ২৪টি ইউরোপীয় ভাষা প্রায় ৬০x রিয়েল-টাইম গতিতে প্রসেস করে — ৬০ মিনিটের মিটিং প্রায় এক মিনিটে শেষ হয়। চীনা, জাপানি বা কোরীয়ের জন্য, SenseVoice CJK ৫২x গতিতে হ্যান্ডেল করে। Pyannote VAD ট্রান্সক্রিপশনের আগে নীরবতা সরিয়ে দেয়, তাই মডেল শুধু প্রকৃত কথা প্রসেস করে।

Mac-এ Whisper Notes ট্রান্সক্রিপ্ট ভিউ, ইনলাইন টেক্সট এডিটিং, টাইমস্ট্যাম্প এবং অডিও ওয়েভফর্ম দেখাচ্ছে

টাইমস্ট্যাম্প এবং ইনলাইন এডিটিং সহ ট্রান্সক্রিপ্ট — যেকোনো সেগমেন্টে ক্লিক করুন এবং অডিওর সেই মুহূর্তে যান

AI ফিচার — সব লোকাল

Gemma 4 আপনার Mac-এ চলে। কোনো API key লাগে না, কোনো ক্লাউড কল নেই, কোনো ব্যবহার সীমা নেই। ট্রান্সক্রিপশনের পর:

  • সারসংক্ষেপ — ৬০ মিনিটের মিটিংয়ের মূল পয়েন্ট, কয়েক সেকেন্ডে
  • কাজের আইটেম — টাস্ক এবং ডেডলাইন, স্বয়ংক্রিয়ভাবে বের করা
  • অনুবাদ — Apple Intelligence ট্রান্সক্রিপ্ট অন্য ভাষায় অনুবাদ করে
  • চ্যাট — জিজ্ঞেস করুন "আমরা প্রাইসিং নিয়ে কী ঠিক করলাম?" এবং ট্রান্সক্রিপ্টের ভিত্তিতে উত্তর পান
Whisper Notes AI অ্যাসিস্ট্যান্ট সাইডবার, সারসংক্ষেপ, কাজের আইটেম, অনুবাদ বোতাম এবং চ্যাট ইন্টারফেস সহ

Gemma 4 AI সাইডবার — সারসংক্ষেপ, কাজের আইটেম, অনুবাদ, এবং ফ্রি-ফর্ম চ্যাট, সব লোকালি চলছে

আমরা কেন এভাবে তৈরি করলাম

মিটিং অডিও একটি কোম্পানির সবচেয়ে সংবেদনশীল ডেটার মধ্যে পড়ে। ক্লায়েন্ট আলোচনা, HR রিভিউ, বোর্ড মিটিং, আইনি পরামর্শ — এমন কথোপকথন যেখানে একটি ভুল লিক ক্যারিয়ার শেষ করতে পারে।

বেশিরভাগ ট্রান্সক্রিপশন টুল এই অডিও ক্লাউড সার্ভারে আপলোড করে, সেখানে প্রসেস করে, এবং তাদের ডেটা রিটেনশন পলিসি অনুযায়ী সংরক্ষণ করে। কিছু কলে একটি বট যোগ করে যা সবাই দেখতে পায়। কিছু আপনার রেকর্ডিং অনির্দিষ্টকালের জন্য রেখে দেয় "মডেল উন্নতির" জন্য।

আমরা ভিন্ন পথ বেছে নিয়েছি: সবকিছু আপনার Mac-এ চলে। ASR মডেল, LLM, অডিও স্টোরেজ — সব লোকাল। ব্রিচ করার কোনো সার্ভার নেই, পড়ার কোনো ডেটা রিটেনশন পলিসি নেই, থার্ড-পার্টি সাবপিনা ঝুঁকি নেই। GDPR, HIPAA, বা অ্যাটর্নি-ক্লায়েন্ট প্রিভিলেজের অধীনে কাজ করা টিমের জন্য, এই আর্কিটেকচারই মূল কথা।

তুলনা

Whisper Notes Otter.ai Fireflies Jamie
প্রসেসিং 100% অন-ডিভাইস ক্লাউড ক্লাউড হাইব্রিড
কলে বট না হ্যাঁ হ্যাঁ না
মূল্য একবারই $6.99 $16.99/মাস (Pro) $18/মাস থেকে $24/মাস
অফলাইনে কাজ করে হ্যাঁ না না আংশিক
AI সারসংক্ষেপ লোকাল (Gemma 4) ক্লাউড ক্লাউড ক্লাউড
স্পিকার ডায়ারাইজেশন এখনো না হ্যাঁ হ্যাঁ হ্যাঁ

ভিন্ন মিটিং, ভিন্ন ভাষা

আপনার মিটিংয়ের ভাষার সাথে মানানসই মডেল বেছে নিন:

ইংরেজি / ইউরোপীয় Parakeet V3 — ~৬০x রিয়েল-টাইম, 6.32% WER, নীরবতায় শূন্য হ্যালুসিনেশন
চীনা / জাপানি / কোরীয় SenseVoice — ৫২x গতি, ক্যান্টনিজ সাপোর্ট, MLX-এর মাধ্যমে GPU-অ্যাক্সেলারেটেড
অন্যান্য ভাষা Whisper Large V3 Turbo — ৯৯টি ভাষা, উচ্চ নির্ভুলতা, ধীরতর

কী নেই

আমাদের এখনো স্পিকার ডায়ারাইজেশন নেই। বর্তমানে Whisper Notes অডিওকে "আমি" (আপনার মাইক্রোফোন) এবং "অন্যরা" (সিস্টেম অডিও) হিসেবে লেবেল করে — যা বেশিরভাগ ওয়ান-অন-ওয়ান এবং ছোট গ্রুপ মিটিংয়ের জন্য যথেষ্ট। কিন্তু ১০ জনের একটি কলে যেখানে আপনাকে জানতে হবে কে কী বলেছে, এটি পর্যাপ্ত নয়।

এটি পরবর্তী সুস্পষ্ট পদক্ষেপ এবং আমরা এটি নিয়ে কাজ করছি। লক্ষ্য হলো লোকাল ডায়ারাইজেশন যা Parakeet V3 এবং SenseVoice-এর পাশাপাশি চলবে, কোথাও অডিও না পাঠিয়ে।