TL;DR
| Parakeet V3 | Whisper Large V3 | |
|---|---|---|
| গতি | 10× | 1× |
| সমর্থিত ভাষা | 25 | 100+ |
| ইংরেজি ত্রুটির হার (WER) | 6.32% | 7.44% |
| 25টি ভাষার গড় ত্রুটির হার (WER) | 12.0% | 12.6% |
| হ্যালুসিনেশন | নেই | নীরবতায় |
| সেরা | ইংরেজি ও ইউরোপীয় | এশীয়, আরবি, 100+ |
* গতি: 35 মিনিটের অডিও, Apple Silicon. ইংরেজি WER: Open ASR Leaderboard. 25 ভাষা গড়: FLEURS বেঞ্চমার্ক.
ভার্সন 1.3.2 থেকে, Whisper Notes for Mac-এ NVIDIA Parakeet TDT 0.6B ডিফল্ট স্পিচ ইঞ্জিন হিসেবে আসছে। এটি ইংরেজির জন্য Whisper Large V3 Turbo-র চেয়ে 10 গুণ দ্রুত, এবং আরও নির্ভুল। অন্য ভাষা দরকার হলে Whisper মডেলগুলো এখনও পাওয়া যাবে।
ডিফল্ট কেন বদলালাম
Whisper দারুণ, কিন্তু এটা বানানো হয়েছিল সব কাজের জন্য। 100+ ভাষা সাপোর্ট করে, অনুবাদ করে, টাইমস্ট্যাম্প দেয় — একটা সুইস আর্মি নাইফ। এর মূল্য হলো স্পিড। ইংরেজি ডিক্টেশনের জন্য, যেখানে শুধু দ্রুত স্ক্রিনে শব্দ দেখতে চান, এটা প্রয়োজনের চেয়ে অনেক বেশি।
একটা ব্যাপার আমাকে সবসময় বিরক্ত করত: Fn-key সিস্টেম-ওয়াইড ডিক্টেশন-এ Whisper ব্যবহার করলে, প্রায় 1 মিনিট কথা বলার পর ট্রান্সক্রিপ্ট আসতে 3-5 সেকেন্ড লাগত। এই বিরতিটা ফ্লো ভেঙে দেয়। কথা বলা থামান, অপেক্ষা করুন, কার্সরের দিকে তাকিয়ে থাকুন — ভয়েস টাইপিংয়ের যাদুটাই শেষ হয়ে যায়।
Parakeet এটা সম্পূর্ণ বদলে দিয়েছে। স্পিড এতটাই দ্রুত যে কথা বলা থামাতেই ট্রান্সক্রিপ্ট চলে আসে। বলুন, আর শব্দগুলো সাথে সাথে সেখানে থাকবে। একবার এই অনুভূতিটা পেলে — এই বিরামহীন, শূন্য-অপেক্ষার প্রবাহ — Whisper-এ ফিরে যাওয়া সত্যিই কঠিন।
Parakeet V3 কতটা দ্রুত?
সংখ্যা কথার চেয়ে জোরে বলে। এখানে একটা বাস্তব তুলনা — 35 মিনিটের অডিও ফাইল, একই Mac-এ:
| মডেল | 35 মিনিট অডিও |
|---|---|
| Whisper Large V3 Turbo | 3 মিনিট |
| Parakeet TDT 0.6B v3 | 18 সেকেন্ড |
10 গুণ দ্রুত। আর মডেলটা ছোট হওয়ায় (600M বনাম 800M প্যারামিটার), মেমরি আর ব্যাটারিও কম খরচ হয়।
Parakeet v3 এত দ্রুত কেন
Whisper অডিও শোনে যেভাবে আপনি জোরে বই পড়বেন — শব্দে শব্দে, ফ্রেমে ফ্রেমে, কিছু এড়িয়ে যায় না। নীরবতার সময়ও প্রসেস করতে থাকে, পরেরটা কী হবে অনুমান করতে থাকে। এটা পুঙ্খানুপুঙ্খ, তবে ধীর।
Parakeet মৌলিকভাবে আলাদা পদ্ধতি নেয়। প্রসেসিংয়ের আগে অডিও সিগন্যাল 8 গুণ কমপ্রেস করে, তাই মডেল শুধু গুরুত্বপূর্ণ জিনিসই দেখে। তারপর প্রতিটা ফ্রেম ঘষে যাওয়ার বদলে, শুধু কী শব্দ বলেছেন তা নয়, সেই শব্দ কতক্ষণ ধরে চলেছে তাও অনুমান করে — আর সামনে লাফ দেয়। নীরবতা? সম্পূর্ণ এড়িয়ে যায়। দীর্ঘ স্বরধ্বনি? ডজনখানেকের বদলে একটা প্রেডিকশন।
ফলাফল হলো এমন একটা মডেল যা কথা প্রসেস করে আপনার মস্তিষ্কের মতো — শব্দগুলোতে ফোকাস করে, ফাঁকগুলো উপেক্ষা করে। এই কারণেই কম প্যারামিটার আর বেশি নির্ভুলতা নিয়ে এটা 10 গুণ দ্রুত।
বেঞ্চমার্ক: Parakeet v3 বনাম Whisper
Parakeet v3 FLEURS, CoVoST, এবং MLS বেঞ্চমার্কে নিজের চেয়ে 2-4 গুণ বড় মডেলের সমান বা তার চেয়ে ভালো পারফর্ম করে
Hugging Face Open ASR Leaderboard-এ, Parakeet v3 মাত্র 600M প্যারামিটার নিয়ে শীর্ষে — Whisper Large V3-এর 1.55B-এর অর্ধেকেরও কম:
| মডেল | প্যারামিটার | গড় WER | গতি (RTFx) |
|---|---|---|---|
| Parakeet TDT 0.6B v3 | 0.6B | 6.32% | 3,333x |
| Canary 1B v2 | 1.0B | 7.15% | 749x |
| Whisper Large V3 | 1.55B | 7.44% | 146x |
| Whisper Large V3 Turbo | 0.8B | 7.6% | 350x |
কম WER = কম ভুল। বেশি RTFx = বেশি দ্রুত। Parakeet দুটোতেই জেতে। 600M প্যারামিটার নিয়ে, এটা সেই তালিকার সবচেয়ে ছোট মডেলও — মানে Apple Silicon-এ চমৎকার চলে, কম মেমরি আর কম ব্যাটারি খরচে।
বহুভাষিক WER: সব 25টি ভাষা
উপরের লিডারবোর্ড শুধু ইংরেজি কভার করে। এখানে সম্পূর্ণ চিত্র — Whisper Notes-এ থাকা তিনটি মডেল Parakeet যে 25টি ভাষা সাপোর্ট করে তার সবকটিতে কেমন পারফর্ম করে, FLEURS বেঞ্চমার্কে মাপা। কম WER = কম ট্রান্সক্রিপশন ভুল। প্রতি সারিতে Large V3 ও Parakeet-এর মধ্যে সেরা মানটি হাইলাইট করা:
| ভাষা | Whisper Small | Whisper Large V3 | Parakeet V3 |
|---|---|---|---|
| বুলগেরীয় | 37.3 | 12.9 | 12.6 |
| ক্রোয়েশীয় | 33.4 | 11.1 | 12.5 |
| চেক | 37.6 | 11.3 | 11.0 |
| ড্যানিশ | 32.8 | 12.6 | 18.4 |
| ডাচ | 16.4 | 5.6 | 7.5 |
| ইংরেজি | 6.1 | 4.3 | 4.9 |
| এস্তোনীয় | 51.3 | 19.1 | 17.7 |
| ফিনিশ | 24.0 | 7.7 | 13.2 |
| ফরাসি | 15.0 | 6.3 | 5.2 |
| জার্মান | 10.2 | 4.3 | 5.0 |
| গ্রিক | 30.8 | 27.0 | 20.7 |
| হাঙ্গেরীয় | 38.9 | 14.1 | 15.7 |
| ইতালীয় | 9.8 | 2.3 | 3.0 |
| লাটভীয় | 53.2 | 18.3 | 22.8 |
| লিথুয়ানীয় | 65.6 | 22.3 | 20.4 |
| মাল্টিজ | 92.2 | 68.9 | 20.5 |
| পোলিশ | 14.7 | 4.7 | 7.3 |
| পর্তুগিজ | 7.3 | 3.7 | 4.8 |
| রোমানীয় | 29.8 | 8.2 | 12.4 |
| রুশ | 11.4 | 4.2 | 5.5 |
| স্লোভাক | 33.3 | 8.4 | 8.8 |
| স্লোভেনীয় | 49.3 | 19.9 | 24.0 |
| স্প্যানিশ | 5.6 | 3.1 | 3.5 |
| সুইডিশ | 20.8 | 7.9 | 15.1 |
| ইউক্রেনীয় | 19.3 | 6.5 | 6.8 |
| গড় | 29.8 | 12.6 | 12.0 |
WER (%) FLEURS-এ। Whisper Small ডেটা Radford et al. থেকে; Large V3 ও Parakeet V3 ডেটা NVIDIA Canary-1B-v2 পেপার থেকে।
Whisper Large V3 বেশিরভাগ আলাদা ভাষায় সামান্য এগিয়ে — এটা সর্বোপরি 2.5 গুণ বড়। কিন্তু Parakeet V3 গড়ে সমান (12.0% বনাম 12.6%), গ্রিক, ফরাসি, এস্তোনীয়, এবং মাল্টিজে নিশ্চিতভাবে জেতে, এবং Whisper Small-কে সর্বত্র ধ্বংস করে (গড়ে 60% কম ভুল)। আসল গল্প WER-এ শতাংশের ভগ্নাংশ নয় — আসল গল্প হলো সম্পূর্ণ প্যাকেজ: Large V3-মানের নির্ভুলতা 23 গুণ গতিতে, 40% মেমরিতে, শূন্য হ্যালুসিনেশন, এবং সবকিছু আপনার Mac-এ লোকালি চলে।
আর হ্যালুসিনেশন নেই
ডিক্টেশনে Whisper ব্যবহার করে থাকলে, নিশ্চয়ই দেখেছেন নীরবতায় এটা হ্যালুসিনেট করে — বাক্য রিপিট করে, শব্দ বানিয়ে ফেলে, বা কোথা থেকে "Subtitles by Amara.org" বের করে দেয়। এটা হয় কারণ Whisper-এর অটোরিগ্রেসিভ ডিকোডার সবসময় টেক্সট তৈরি করতে চায়, এমনকি ট্রান্সক্রাইব করার কিছু না থাকলেও।
NVIDIA Parakeet-কে 36,000 ঘণ্টার খাঁটি নন-স্পিচ অডিওতে (ব্যাকগ্রাউন্ড শব্দ, কাশি, নীরবতা) ট্রেন করেছে, যেখানে টার্গেট ছিল খালি স্ট্রিং। মডেল শিখেছে নীরবতা কেমন হয় আর চুপ থাকে। "সবসময় চালু" সিস্টেম-ওয়াইড ডিক্টেশন-এর জন্য এটা গেম-চেঞ্জার — চিন্তা করতে থামলে আর আবর্জনা টেক্সট আসবে না।
Parakeet কোন ভাষাগুলো সাপোর্ট করে
Parakeet v3 25টি ভাষা সাপোর্ট করে: বুলগেরীয়, ক্রোয়েশীয়, চেক, ড্যানিশ, ডাচ, ইংরেজি, এস্তোনীয়, ফিনিশ, ফরাসি, জার্মান, গ্রিক, হাঙ্গেরীয়, ইতালীয়, লাটভীয়, লিথুয়ানীয়, মাল্টিজ, পোলিশ, পর্তুগিজ, রোমানীয়, রুশ, স্লোভাক, স্লোভেনীয়, স্প্যানিশ, সুইডিশ, এবং ইউক্রেনীয়।
এটা ইউরোপের বেশিরভাগ কভার করে, কিন্তু চীনা, জাপানি, কোরীয়, আরবি বা হিন্দি সাপোর্ট করে না। তাই আমরা Whisper মডেলগুলো ডাউনলোডযোগ্য অপশন হিসেবে রেখেছি। বাংলা, জাপানি বা ম্যান্ডারিনে ডিক্টেট করলে, মডেল পিকার থেকে Whisper Large V3 Turbo বেছে নিন। ইংরেজি আর ইউরোপীয় ভাষাগুলোর জন্য, Parakeet v3 সোজা কথায় ভালো ইঞ্জিন।
মডেল পিকার: Parakeet V3 (ডিফল্ট), Whisper Small, এবং Whisper Large V3 Turbo — সবই লোকালি চলে
Whisper Notes-এ মডেল পিকার
মডেল বদলাতে Settings খুলুন:
- Parakeet V3 (ডিফল্ট) — সবচেয়ে দ্রুত, ইংরেজি ও ইউরোপীয় ভাষার জন্য সেরা
- Whisper Small — হালকা, 100+ ভাষা
- Whisper Large V3 Turbo — সবচেয়ে নির্ভুল বহুভাষী মডেল
সব মডেল আপনার Mac-এ 100% লোকালি চলে। ইন্টারনেট নেই, ক্লাউড নেই, আপনার ডেটা আপনার ডিভাইস থেকে বের হয় না।
Parakeet V2 কী হলো?
আপনি যদি V2 ব্যবহার করে থাকেন, হয়তো তুলনা জানতে চান। V2 ছিল শুধু ইংরেজির মডেল — এবং এর ইংরেজি সঠিকতা আসলে V3-এর চেয়ে সামান্য ভালো (WER ৬.০৫% বনাম ৬.৩২%)। V3 এই ছোট্ট পার্থক্য বিনিময় করেছে ২৫টি ভাষার সমর্থনে। দুটোই Whisper-এর চেয়ে অনেক বেশি সঠিক।
| Parakeet V2 | Parakeet V3 | Whisper Large V3 | |
|---|---|---|---|
| ইংরেজি WER | 6.05% | 6.32% | 7.44% |
| ভাষা | শুধু ইংরেজি | 25 | 100+ |
সংক্ষেপে: শুধু ইংরেজি দরকার হলে V2 ও V3 দুটোই চমৎকার। Whisper Notes-এ V3 ডিফল্ট কারণ বহুভাষিক সমর্থন বেশিরভাগ ব্যবহারকারীর জন্য গুরুত্বপূর্ণ — এবং ইংরেজি সঠিকতার পার্থক্য নগণ্য।
ব্যবহার করে দেখুন
Parakeet v3 এখনই Mac ভার্সনে পাওয়া যাচ্ছে — শুধু সর্বশেষ DMG ডাউনলোড করুন। (আপডেট: সর্বশেষ iOS ভার্সনেও এখন Parakeet পাওয়া যাচ্ছে।)
প্রশ্ন বা মতামত? ইমেইল করুন support@whispernotes.app।