Parakeet V3 এখন Mac-এর ডিফল্ট ইঞ্জিন — Whisper-এর চেয়ে 10 গুণ দ্রুত

৭ মার্চ, ২০২৬
·
6 min read
·Whisper Notes Team

ভার্সন 1.3.2 থেকে, Whisper Notes for Mac-এ NVIDIA Parakeet TDT 0.6B ডিফল্ট স্পিচ ইঞ্জিন হিসেবে আসছে। এটি ইংরেজির জন্য Whisper Large V3 Turbo-র চেয়ে 10 গুণ দ্রুত, এবং আরও নির্ভুল। অন্য ভাষা দরকার হলে Whisper মডেলগুলো এখনও পাওয়া যাবে।

ডিফল্ট কেন বদলালাম

Whisper দারুণ, কিন্তু এটা বানানো হয়েছিল সব কাজের জন্য। 100+ ভাষা সাপোর্ট করে, অনুবাদ করে, টাইমস্ট্যাম্প দেয় — একটা সুইস আর্মি নাইফ। এর মূল্য হলো স্পিড। ইংরেজি ডিক্টেশনের জন্য, যেখানে শুধু দ্রুত স্ক্রিনে শব্দ দেখতে চান, এটা প্রয়োজনের চেয়ে অনেক বেশি।

একটা ব্যাপার আমাকে সবসময় বিরক্ত করত: Fn-key সিস্টেম-ওয়াইড ডিক্টেশন-এ Whisper ব্যবহার করলে, প্রায় 1 মিনিট কথা বলার পর ট্রান্সক্রিপ্ট আসতে 3-5 সেকেন্ড লাগত। এই বিরতিটা ফ্লো ভেঙে দেয়। কথা বলা থামান, অপেক্ষা করুন, কার্সরের দিকে তাকিয়ে থাকুন — ভয়েস টাইপিংয়ের যাদুটাই শেষ হয়ে যায়।

Parakeet এটা সম্পূর্ণ বদলে দিয়েছে। স্পিড এতটাই দ্রুত যে কথা বলা থামাতেই ট্রান্সক্রিপ্ট চলে আসে। বলুন, আর শব্দগুলো সাথে সাথে সেখানে থাকবে। একবার এই অনুভূতিটা পেলে — এই বিরামহীন, শূন্য-অপেক্ষার প্রবাহ — Whisper-এ ফিরে যাওয়া সত্যিই কঠিন।

Parakeet V3 কতটা দ্রুত?

সংখ্যা কথার চেয়ে জোরে বলে। এখানে একটা বাস্তব তুলনা — 35 মিনিটের অডিও ফাইল, একই Mac-এ:

মডেল 35 মিনিট অডিও
Whisper Large V3 Turbo 3 মিনিট
Parakeet TDT 0.6B v3 18 সেকেন্ড

10 গুণ দ্রুত। আর মডেলটা ছোট হওয়ায় (600M বনাম 800M প্যারামিটার), মেমরি আর ব্যাটারিও কম খরচ হয়।

Parakeet v3 এত দ্রুত কেন

Whisper অডিও শোনে যেভাবে আপনি জোরে বই পড়বেন — শব্দে শব্দে, ফ্রেমে ফ্রেমে, কিছু এড়িয়ে যায় না। নীরবতার সময়ও প্রসেস করতে থাকে, পরেরটা কী হবে অনুমান করতে থাকে। এটা পুঙ্খানুপুঙ্খ, তবে ধীর।

Parakeet মৌলিকভাবে আলাদা পদ্ধতি নেয়। প্রসেসিংয়ের আগে অডিও সিগন্যাল 8 গুণ কমপ্রেস করে, তাই মডেল শুধু গুরুত্বপূর্ণ জিনিসই দেখে। তারপর প্রতিটা ফ্রেম ঘষে যাওয়ার বদলে, শুধু কী শব্দ বলেছেন তা নয়, সেই শব্দ কতক্ষণ ধরে চলেছে তাও অনুমান করে — আর সামনে লাফ দেয়। নীরবতা? সম্পূর্ণ এড়িয়ে যায়। দীর্ঘ স্বরধ্বনি? ডজনখানেকের বদলে একটা প্রেডিকশন।

ফলাফল হলো এমন একটা মডেল যা কথা প্রসেস করে আপনার মস্তিষ্কের মতো — শব্দগুলোতে ফোকাস করে, ফাঁকগুলো উপেক্ষা করে। এই কারণেই কম প্যারামিটার আর বেশি নির্ভুলতা নিয়ে এটা 10 গুণ দ্রুত।

বেঞ্চমার্ক: Parakeet v3 বনাম Whisper

শব্দ ত্রুটি হার তুলনা: Parakeet TDT 0.6B v3 বনাম Whisper Large V3 বনাম Seamless M4T একাধিক বেঞ্চমার্ক ডেটাসেটে

Parakeet v3 FLEURS, CoVoST, এবং MLS বেঞ্চমার্কে নিজের চেয়ে 2-4 গুণ বড় মডেলের সমান বা তার চেয়ে ভালো পারফর্ম করে

Hugging Face Open ASR Leaderboard-এ, Parakeet v3 মাত্র 600M প্যারামিটার নিয়ে শীর্ষে — Whisper Large V3-এর 1.55B-এর অর্ধেকেরও কম:

মডেল প্যারামিটার গড় WER গতি (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

কম WER = কম ভুল। বেশি RTFx = বেশি দ্রুত। Parakeet দুটোতেই জেতে। 600M প্যারামিটার নিয়ে, এটা সেই তালিকার সবচেয়ে ছোট মডেলও — মানে Apple Silicon-এ চমৎকার চলে, কম মেমরি আর কম ব্যাটারি খরচে।

আর হ্যালুসিনেশন নেই

ডিক্টেশনে Whisper ব্যবহার করে থাকলে, নিশ্চয়ই দেখেছেন নীরবতায় এটা হ্যালুসিনেট করে — বাক্য রিপিট করে, শব্দ বানিয়ে ফেলে, বা কোথা থেকে "Subtitles by Amara.org" বের করে দেয়। এটা হয় কারণ Whisper-এর অটোরিগ্রেসিভ ডিকোডার সবসময় টেক্সট তৈরি করতে চায়, এমনকি ট্রান্সক্রাইব করার কিছু না থাকলেও।

NVIDIA Parakeet-কে 36,000 ঘণ্টার খাঁটি নন-স্পিচ অডিওতে (ব্যাকগ্রাউন্ড শব্দ, কাশি, নীরবতা) ট্রেন করেছে, যেখানে টার্গেট ছিল খালি স্ট্রিং। মডেল শিখেছে নীরবতা কেমন হয় আর চুপ থাকে। "সবসময় চালু" সিস্টেম-ওয়াইড ডিক্টেশন-এর জন্য এটা গেম-চেঞ্জার — চিন্তা করতে থামলে আর আবর্জনা টেক্সট আসবে না।

Parakeet কোন ভাষাগুলো সাপোর্ট করে

Parakeet v3 25টি ভাষা সাপোর্ট করে: বুলগেরীয়, ক্রোয়েশীয়, চেক, ড্যানিশ, ডাচ, ইংরেজি, এস্তোনীয়, ফিনিশ, ফরাসি, জার্মান, গ্রিক, হাঙ্গেরীয়, ইতালীয়, লাটভীয়, লিথুয়ানীয়, মাল্টিজ, পোলিশ, পর্তুগিজ, রোমানীয়, রুশ, স্লোভাক, স্লোভেনীয়, স্প্যানিশ, সুইডিশ, এবং ইউক্রেনীয়।

এটা ইউরোপের বেশিরভাগ কভার করে, কিন্তু চীনা, জাপানি, কোরীয়, আরবি বা হিন্দি সাপোর্ট করে না। তাই আমরা Whisper মডেলগুলো ডাউনলোডযোগ্য অপশন হিসেবে রেখেছি। বাংলা, জাপানি বা ম্যান্ডারিনে ডিক্টেট করলে, মডেল পিকার থেকে Whisper Large V3 Turbo বেছে নিন। ইংরেজি আর ইউরোপীয় ভাষাগুলোর জন্য, Parakeet v3 সোজা কথায় ভালো ইঞ্জিন।

Whisper Notes Mac মডেল পিকার যেখানে Parakeet V3 ডিফল্ট হিসেবে দেখা যাচ্ছে, সাথে Whisper Small এবং Whisper Large V3 Turbo ডাউনলোডযোগ্য অপশন হিসেবে

মডেল পিকার: Parakeet V3 (ডিফল্ট), Whisper Small, এবং Whisper Large V3 Turbo — সবই লোকালি চলে

Whisper Notes-এ মডেল পিকার

মডেল বদলাতে Settings খুলুন:

  • Parakeet V3 (ডিফল্ট) — সবচেয়ে দ্রুত, ইংরেজি ও ইউরোপীয় ভাষার জন্য সেরা
  • Whisper Small — হালকা, 100+ ভাষা
  • Whisper Large V3 Turbo — সবচেয়ে নির্ভুল বহুভাষী মডেল

সব মডেল আপনার Mac-এ 100% লোকালি চলে। ইন্টারনেট নেই, ক্লাউড নেই, আপনার ডেটা আপনার ডিভাইস থেকে বের হয় না।

ব্যবহার করে দেখুন

Parakeet v3 এখনই Mac ভার্সনে পাওয়া যাচ্ছে — শুধু সর্বশেষ DMG ডাউনলোড করুন। ফিডব্যাক ভালো হলে, ভবিষ্যতে iOS ভার্সনেও Parakeet আনব।

প্রশ্ন বা মতামত? ইমেইল করুন support@whispernotes.app