ভার্সন 1.3.2 থেকে, Whisper Notes for Mac-এ NVIDIA Parakeet TDT 0.6B ডিফল্ট স্পিচ ইঞ্জিন হিসেবে আসছে। এটি ইংরেজির জন্য Whisper Large V3 Turbo-র চেয়ে 10 গুণ দ্রুত, এবং আরও নির্ভুল। অন্য ভাষা দরকার হলে Whisper মডেলগুলো এখনও পাওয়া যাবে।
ডিফল্ট কেন বদলালাম
Whisper দারুণ, কিন্তু এটা বানানো হয়েছিল সব কাজের জন্য। 100+ ভাষা সাপোর্ট করে, অনুবাদ করে, টাইমস্ট্যাম্প দেয় — একটা সুইস আর্মি নাইফ। এর মূল্য হলো স্পিড। ইংরেজি ডিক্টেশনের জন্য, যেখানে শুধু দ্রুত স্ক্রিনে শব্দ দেখতে চান, এটা প্রয়োজনের চেয়ে অনেক বেশি।
একটা ব্যাপার আমাকে সবসময় বিরক্ত করত: Fn-key সিস্টেম-ওয়াইড ডিক্টেশন-এ Whisper ব্যবহার করলে, প্রায় 1 মিনিট কথা বলার পর ট্রান্সক্রিপ্ট আসতে 3-5 সেকেন্ড লাগত। এই বিরতিটা ফ্লো ভেঙে দেয়। কথা বলা থামান, অপেক্ষা করুন, কার্সরের দিকে তাকিয়ে থাকুন — ভয়েস টাইপিংয়ের যাদুটাই শেষ হয়ে যায়।
Parakeet এটা সম্পূর্ণ বদলে দিয়েছে। স্পিড এতটাই দ্রুত যে কথা বলা থামাতেই ট্রান্সক্রিপ্ট চলে আসে। বলুন, আর শব্দগুলো সাথে সাথে সেখানে থাকবে। একবার এই অনুভূতিটা পেলে — এই বিরামহীন, শূন্য-অপেক্ষার প্রবাহ — Whisper-এ ফিরে যাওয়া সত্যিই কঠিন।
Parakeet V3 কতটা দ্রুত?
সংখ্যা কথার চেয়ে জোরে বলে। এখানে একটা বাস্তব তুলনা — 35 মিনিটের অডিও ফাইল, একই Mac-এ:
| মডেল | 35 মিনিট অডিও |
|---|---|
| Whisper Large V3 Turbo | 3 মিনিট |
| Parakeet TDT 0.6B v3 | 18 সেকেন্ড |
10 গুণ দ্রুত। আর মডেলটা ছোট হওয়ায় (600M বনাম 800M প্যারামিটার), মেমরি আর ব্যাটারিও কম খরচ হয়।
Parakeet v3 এত দ্রুত কেন
Whisper অডিও শোনে যেভাবে আপনি জোরে বই পড়বেন — শব্দে শব্দে, ফ্রেমে ফ্রেমে, কিছু এড়িয়ে যায় না। নীরবতার সময়ও প্রসেস করতে থাকে, পরেরটা কী হবে অনুমান করতে থাকে। এটা পুঙ্খানুপুঙ্খ, তবে ধীর।
Parakeet মৌলিকভাবে আলাদা পদ্ধতি নেয়। প্রসেসিংয়ের আগে অডিও সিগন্যাল 8 গুণ কমপ্রেস করে, তাই মডেল শুধু গুরুত্বপূর্ণ জিনিসই দেখে। তারপর প্রতিটা ফ্রেম ঘষে যাওয়ার বদলে, শুধু কী শব্দ বলেছেন তা নয়, সেই শব্দ কতক্ষণ ধরে চলেছে তাও অনুমান করে — আর সামনে লাফ দেয়। নীরবতা? সম্পূর্ণ এড়িয়ে যায়। দীর্ঘ স্বরধ্বনি? ডজনখানেকের বদলে একটা প্রেডিকশন।
ফলাফল হলো এমন একটা মডেল যা কথা প্রসেস করে আপনার মস্তিষ্কের মতো — শব্দগুলোতে ফোকাস করে, ফাঁকগুলো উপেক্ষা করে। এই কারণেই কম প্যারামিটার আর বেশি নির্ভুলতা নিয়ে এটা 10 গুণ দ্রুত।
বেঞ্চমার্ক: Parakeet v3 বনাম Whisper
Parakeet v3 FLEURS, CoVoST, এবং MLS বেঞ্চমার্কে নিজের চেয়ে 2-4 গুণ বড় মডেলের সমান বা তার চেয়ে ভালো পারফর্ম করে
Hugging Face Open ASR Leaderboard-এ, Parakeet v3 মাত্র 600M প্যারামিটার নিয়ে শীর্ষে — Whisper Large V3-এর 1.55B-এর অর্ধেকেরও কম:
| মডেল | প্যারামিটার | গড় WER | গতি (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
কম WER = কম ভুল। বেশি RTFx = বেশি দ্রুত। Parakeet দুটোতেই জেতে। 600M প্যারামিটার নিয়ে, এটা সেই তালিকার সবচেয়ে ছোট মডেলও — মানে Apple Silicon-এ চমৎকার চলে, কম মেমরি আর কম ব্যাটারি খরচে।
আর হ্যালুসিনেশন নেই
ডিক্টেশনে Whisper ব্যবহার করে থাকলে, নিশ্চয়ই দেখেছেন নীরবতায় এটা হ্যালুসিনেট করে — বাক্য রিপিট করে, শব্দ বানিয়ে ফেলে, বা কোথা থেকে "Subtitles by Amara.org" বের করে দেয়। এটা হয় কারণ Whisper-এর অটোরিগ্রেসিভ ডিকোডার সবসময় টেক্সট তৈরি করতে চায়, এমনকি ট্রান্সক্রাইব করার কিছু না থাকলেও।
NVIDIA Parakeet-কে 36,000 ঘণ্টার খাঁটি নন-স্পিচ অডিওতে (ব্যাকগ্রাউন্ড শব্দ, কাশি, নীরবতা) ট্রেন করেছে, যেখানে টার্গেট ছিল খালি স্ট্রিং। মডেল শিখেছে নীরবতা কেমন হয় আর চুপ থাকে। "সবসময় চালু" সিস্টেম-ওয়াইড ডিক্টেশন-এর জন্য এটা গেম-চেঞ্জার — চিন্তা করতে থামলে আর আবর্জনা টেক্সট আসবে না।
Parakeet কোন ভাষাগুলো সাপোর্ট করে
Parakeet v3 25টি ভাষা সাপোর্ট করে: বুলগেরীয়, ক্রোয়েশীয়, চেক, ড্যানিশ, ডাচ, ইংরেজি, এস্তোনীয়, ফিনিশ, ফরাসি, জার্মান, গ্রিক, হাঙ্গেরীয়, ইতালীয়, লাটভীয়, লিথুয়ানীয়, মাল্টিজ, পোলিশ, পর্তুগিজ, রোমানীয়, রুশ, স্লোভাক, স্লোভেনীয়, স্প্যানিশ, সুইডিশ, এবং ইউক্রেনীয়।
এটা ইউরোপের বেশিরভাগ কভার করে, কিন্তু চীনা, জাপানি, কোরীয়, আরবি বা হিন্দি সাপোর্ট করে না। তাই আমরা Whisper মডেলগুলো ডাউনলোডযোগ্য অপশন হিসেবে রেখেছি। বাংলা, জাপানি বা ম্যান্ডারিনে ডিক্টেট করলে, মডেল পিকার থেকে Whisper Large V3 Turbo বেছে নিন। ইংরেজি আর ইউরোপীয় ভাষাগুলোর জন্য, Parakeet v3 সোজা কথায় ভালো ইঞ্জিন।
মডেল পিকার: Parakeet V3 (ডিফল্ট), Whisper Small, এবং Whisper Large V3 Turbo — সবই লোকালি চলে
Whisper Notes-এ মডেল পিকার
মডেল বদলাতে Settings খুলুন:
- Parakeet V3 (ডিফল্ট) — সবচেয়ে দ্রুত, ইংরেজি ও ইউরোপীয় ভাষার জন্য সেরা
- Whisper Small — হালকা, 100+ ভাষা
- Whisper Large V3 Turbo — সবচেয়ে নির্ভুল বহুভাষী মডেল
সব মডেল আপনার Mac-এ 100% লোকালি চলে। ইন্টারনেট নেই, ক্লাউড নেই, আপনার ডেটা আপনার ডিভাইস থেকে বের হয় না।
ব্যবহার করে দেখুন
Parakeet v3 এখনই Mac ভার্সনে পাওয়া যাচ্ছে — শুধু সর্বশেষ DMG ডাউনলোড করুন। ফিডব্যাক ভালো হলে, ভবিষ্যতে iOS ভার্সনেও Parakeet আনব।
প্রশ্ন বা মতামত? ইমেইল করুন support@whispernotes.app।