Parakeet V3 vs Whisper: 10 গুণ দ্রুত, উচ্চ নির্ভুলতা (বেঞ্চমার্ক)

৭ মার্চ, ২০২৬
·
6 min read
·Whisper Notes Team

TL;DR

Parakeet V3 Whisper Large V3
গতি 10×
সমর্থিত ভাষা 25 100+
ইংরেজি ত্রুটির হার (WER) 6.32% 7.44%
25টি ভাষার গড় ত্রুটির হার (WER) 12.0% 12.6%
হ্যালুসিনেশন নেই নীরবতায়
সেরা ইংরেজি ও ইউরোপীয় এশীয়, আরবি, 100+

* গতি: 35 মিনিটের অডিও, Apple Silicon. ইংরেজি WER: Open ASR Leaderboard. 25 ভাষা গড়: FLEURS বেঞ্চমার্ক.

ভার্সন 1.3.2 থেকে, Whisper Notes for Mac-এ NVIDIA Parakeet TDT 0.6B ডিফল্ট স্পিচ ইঞ্জিন হিসেবে আসছে। এটি ইংরেজির জন্য Whisper Large V3 Turbo-র চেয়ে 10 গুণ দ্রুত, এবং আরও নির্ভুল। অন্য ভাষা দরকার হলে Whisper মডেলগুলো এখনও পাওয়া যাবে।

ডিফল্ট কেন বদলালাম

Whisper দারুণ, কিন্তু এটা বানানো হয়েছিল সব কাজের জন্য। 100+ ভাষা সাপোর্ট করে, অনুবাদ করে, টাইমস্ট্যাম্প দেয় — একটা সুইস আর্মি নাইফ। এর মূল্য হলো স্পিড। ইংরেজি ডিক্টেশনের জন্য, যেখানে শুধু দ্রুত স্ক্রিনে শব্দ দেখতে চান, এটা প্রয়োজনের চেয়ে অনেক বেশি।

একটা ব্যাপার আমাকে সবসময় বিরক্ত করত: Fn-key সিস্টেম-ওয়াইড ডিক্টেশন-এ Whisper ব্যবহার করলে, প্রায় 1 মিনিট কথা বলার পর ট্রান্সক্রিপ্ট আসতে 3-5 সেকেন্ড লাগত। এই বিরতিটা ফ্লো ভেঙে দেয়। কথা বলা থামান, অপেক্ষা করুন, কার্সরের দিকে তাকিয়ে থাকুন — ভয়েস টাইপিংয়ের যাদুটাই শেষ হয়ে যায়।

Parakeet এটা সম্পূর্ণ বদলে দিয়েছে। স্পিড এতটাই দ্রুত যে কথা বলা থামাতেই ট্রান্সক্রিপ্ট চলে আসে। বলুন, আর শব্দগুলো সাথে সাথে সেখানে থাকবে। একবার এই অনুভূতিটা পেলে — এই বিরামহীন, শূন্য-অপেক্ষার প্রবাহ — Whisper-এ ফিরে যাওয়া সত্যিই কঠিন।

Parakeet V3 কতটা দ্রুত?

সংখ্যা কথার চেয়ে জোরে বলে। এখানে একটা বাস্তব তুলনা — 35 মিনিটের অডিও ফাইল, একই Mac-এ:

মডেল 35 মিনিট অডিও
Whisper Large V3 Turbo 3 মিনিট
Parakeet TDT 0.6B v3 18 সেকেন্ড

10 গুণ দ্রুত। আর মডেলটা ছোট হওয়ায় (600M বনাম 800M প্যারামিটার), মেমরি আর ব্যাটারিও কম খরচ হয়।

Parakeet v3 এত দ্রুত কেন

Whisper অডিও শোনে যেভাবে আপনি জোরে বই পড়বেন — শব্দে শব্দে, ফ্রেমে ফ্রেমে, কিছু এড়িয়ে যায় না। নীরবতার সময়ও প্রসেস করতে থাকে, পরেরটা কী হবে অনুমান করতে থাকে। এটা পুঙ্খানুপুঙ্খ, তবে ধীর।

Parakeet মৌলিকভাবে আলাদা পদ্ধতি নেয়। প্রসেসিংয়ের আগে অডিও সিগন্যাল 8 গুণ কমপ্রেস করে, তাই মডেল শুধু গুরুত্বপূর্ণ জিনিসই দেখে। তারপর প্রতিটা ফ্রেম ঘষে যাওয়ার বদলে, শুধু কী শব্দ বলেছেন তা নয়, সেই শব্দ কতক্ষণ ধরে চলেছে তাও অনুমান করে — আর সামনে লাফ দেয়। নীরবতা? সম্পূর্ণ এড়িয়ে যায়। দীর্ঘ স্বরধ্বনি? ডজনখানেকের বদলে একটা প্রেডিকশন।

ফলাফল হলো এমন একটা মডেল যা কথা প্রসেস করে আপনার মস্তিষ্কের মতো — শব্দগুলোতে ফোকাস করে, ফাঁকগুলো উপেক্ষা করে। এই কারণেই কম প্যারামিটার আর বেশি নির্ভুলতা নিয়ে এটা 10 গুণ দ্রুত।

বেঞ্চমার্ক: Parakeet v3 বনাম Whisper

শব্দ ত্রুটি হার তুলনা: Parakeet TDT 0.6B v3 বনাম Whisper Large V3 বনাম Seamless M4T একাধিক বেঞ্চমার্ক ডেটাসেটে

Parakeet v3 FLEURS, CoVoST, এবং MLS বেঞ্চমার্কে নিজের চেয়ে 2-4 গুণ বড় মডেলের সমান বা তার চেয়ে ভালো পারফর্ম করে

Hugging Face Open ASR Leaderboard-এ, Parakeet v3 মাত্র 600M প্যারামিটার নিয়ে শীর্ষে — Whisper Large V3-এর 1.55B-এর অর্ধেকেরও কম:

মডেল প্যারামিটার গড় WER গতি (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

কম WER = কম ভুল। বেশি RTFx = বেশি দ্রুত। Parakeet দুটোতেই জেতে। 600M প্যারামিটার নিয়ে, এটা সেই তালিকার সবচেয়ে ছোট মডেলও — মানে Apple Silicon-এ চমৎকার চলে, কম মেমরি আর কম ব্যাটারি খরচে।

বহুভাষিক WER: সব 25টি ভাষা

উপরের লিডারবোর্ড শুধু ইংরেজি কভার করে। এখানে সম্পূর্ণ চিত্র — Whisper Notes-এ থাকা তিনটি মডেল Parakeet যে 25টি ভাষা সাপোর্ট করে তার সবকটিতে কেমন পারফর্ম করে, FLEURS বেঞ্চমার্কে মাপা। কম WER = কম ট্রান্সক্রিপশন ভুল। প্রতি সারিতে Large V3 ও Parakeet-এর মধ্যে সেরা মানটি হাইলাইট করা:

ভাষা Whisper Small Whisper Large V3 Parakeet V3
বুলগেরীয় 37.3 12.9 12.6
ক্রোয়েশীয় 33.4 11.1 12.5
চেক 37.6 11.3 11.0
ড্যানিশ 32.8 12.6 18.4
ডাচ 16.4 5.6 7.5
ইংরেজি 6.1 4.3 4.9
এস্তোনীয় 51.3 19.1 17.7
ফিনিশ 24.0 7.7 13.2
ফরাসি 15.0 6.3 5.2
জার্মান 10.2 4.3 5.0
গ্রিক 30.8 27.0 20.7
হাঙ্গেরীয় 38.9 14.1 15.7
ইতালীয় 9.8 2.3 3.0
লাটভীয় 53.2 18.3 22.8
লিথুয়ানীয় 65.6 22.3 20.4
মাল্টিজ 92.2 68.9 20.5
পোলিশ 14.7 4.7 7.3
পর্তুগিজ 7.3 3.7 4.8
রোমানীয় 29.8 8.2 12.4
রুশ 11.4 4.2 5.5
স্লোভাক 33.3 8.4 8.8
স্লোভেনীয় 49.3 19.9 24.0
স্প্যানিশ 5.6 3.1 3.5
সুইডিশ 20.8 7.9 15.1
ইউক্রেনীয় 19.3 6.5 6.8
গড় 29.8 12.6 12.0

WER (%) FLEURS-এ। Whisper Small ডেটা Radford et al. থেকে; Large V3 ও Parakeet V3 ডেটা NVIDIA Canary-1B-v2 পেপার থেকে।

Whisper Large V3 বেশিরভাগ আলাদা ভাষায় সামান্য এগিয়ে — এটা সর্বোপরি 2.5 গুণ বড়। কিন্তু Parakeet V3 গড়ে সমান (12.0% বনাম 12.6%), গ্রিক, ফরাসি, এস্তোনীয়, এবং মাল্টিজে নিশ্চিতভাবে জেতে, এবং Whisper Small-কে সর্বত্র ধ্বংস করে (গড়ে 60% কম ভুল)। আসল গল্প WER-এ শতাংশের ভগ্নাংশ নয় — আসল গল্প হলো সম্পূর্ণ প্যাকেজ: Large V3-মানের নির্ভুলতা 23 গুণ গতিতে, 40% মেমরিতে, শূন্য হ্যালুসিনেশন, এবং সবকিছু আপনার Mac-এ লোকালি চলে।

আর হ্যালুসিনেশন নেই

ডিক্টেশনে Whisper ব্যবহার করে থাকলে, নিশ্চয়ই দেখেছেন নীরবতায় এটা হ্যালুসিনেট করে — বাক্য রিপিট করে, শব্দ বানিয়ে ফেলে, বা কোথা থেকে "Subtitles by Amara.org" বের করে দেয়। এটা হয় কারণ Whisper-এর অটোরিগ্রেসিভ ডিকোডার সবসময় টেক্সট তৈরি করতে চায়, এমনকি ট্রান্সক্রাইব করার কিছু না থাকলেও।

NVIDIA Parakeet-কে 36,000 ঘণ্টার খাঁটি নন-স্পিচ অডিওতে (ব্যাকগ্রাউন্ড শব্দ, কাশি, নীরবতা) ট্রেন করেছে, যেখানে টার্গেট ছিল খালি স্ট্রিং। মডেল শিখেছে নীরবতা কেমন হয় আর চুপ থাকে। "সবসময় চালু" সিস্টেম-ওয়াইড ডিক্টেশন-এর জন্য এটা গেম-চেঞ্জার — চিন্তা করতে থামলে আর আবর্জনা টেক্সট আসবে না।

Parakeet কোন ভাষাগুলো সাপোর্ট করে

Parakeet v3 25টি ভাষা সাপোর্ট করে: বুলগেরীয়, ক্রোয়েশীয়, চেক, ড্যানিশ, ডাচ, ইংরেজি, এস্তোনীয়, ফিনিশ, ফরাসি, জার্মান, গ্রিক, হাঙ্গেরীয়, ইতালীয়, লাটভীয়, লিথুয়ানীয়, মাল্টিজ, পোলিশ, পর্তুগিজ, রোমানীয়, রুশ, স্লোভাক, স্লোভেনীয়, স্প্যানিশ, সুইডিশ, এবং ইউক্রেনীয়।

এটা ইউরোপের বেশিরভাগ কভার করে, কিন্তু চীনা, জাপানি, কোরীয়, আরবি বা হিন্দি সাপোর্ট করে না। তাই আমরা Whisper মডেলগুলো ডাউনলোডযোগ্য অপশন হিসেবে রেখেছি। বাংলা, জাপানি বা ম্যান্ডারিনে ডিক্টেট করলে, মডেল পিকার থেকে Whisper Large V3 Turbo বেছে নিন। ইংরেজি আর ইউরোপীয় ভাষাগুলোর জন্য, Parakeet v3 সোজা কথায় ভালো ইঞ্জিন।

Whisper Notes Mac মডেল পিকার যেখানে Parakeet V3 ডিফল্ট হিসেবে দেখা যাচ্ছে, সাথে Whisper Small এবং Whisper Large V3 Turbo ডাউনলোডযোগ্য অপশন হিসেবে

মডেল পিকার: Parakeet V3 (ডিফল্ট), Whisper Small, এবং Whisper Large V3 Turbo — সবই লোকালি চলে

Whisper Notes-এ মডেল পিকার

মডেল বদলাতে Settings খুলুন:

  • Parakeet V3 (ডিফল্ট) — সবচেয়ে দ্রুত, ইংরেজি ও ইউরোপীয় ভাষার জন্য সেরা
  • Whisper Small — হালকা, 100+ ভাষা
  • Whisper Large V3 Turbo — সবচেয়ে নির্ভুল বহুভাষী মডেল

সব মডেল আপনার Mac-এ 100% লোকালি চলে। ইন্টারনেট নেই, ক্লাউড নেই, আপনার ডেটা আপনার ডিভাইস থেকে বের হয় না।

Parakeet V2 কী হলো?

আপনি যদি V2 ব্যবহার করে থাকেন, হয়তো তুলনা জানতে চান। V2 ছিল শুধু ইংরেজির মডেল — এবং এর ইংরেজি সঠিকতা আসলে V3-এর চেয়ে সামান্য ভালো (WER ৬.০৫% বনাম ৬.৩২%)। V3 এই ছোট্ট পার্থক্য বিনিময় করেছে ২৫টি ভাষার সমর্থনে। দুটোই Whisper-এর চেয়ে অনেক বেশি সঠিক।

Parakeet V2 Parakeet V3 Whisper Large V3
ইংরেজি WER 6.05% 6.32% 7.44%
ভাষা শুধু ইংরেজি 25 100+

সংক্ষেপে: শুধু ইংরেজি দরকার হলে V2 ও V3 দুটোই চমৎকার। Whisper Notes-এ V3 ডিফল্ট কারণ বহুভাষিক সমর্থন বেশিরভাগ ব্যবহারকারীর জন্য গুরুত্বপূর্ণ — এবং ইংরেজি সঠিকতার পার্থক্য নগণ্য।

ব্যবহার করে দেখুন

Parakeet v3 এখনই Mac ভার্সনে পাওয়া যাচ্ছে — শুধু সর্বশেষ DMG ডাউনলোড করুন। (আপডেট: সর্বশেষ iOS ভার্সনেও এখন Parakeet পাওয়া যাচ্ছে।)

প্রশ্ন বা মতামত? ইমেইল করুন support@whispernotes.app