Whisper ট্রান্সক্রিপশন গাইড ২০২৬: নির্ভুলতা, মডেল সাইজ ও অফলাইন ব্যবহার

২ জুলাই, ২০২৬
·
9 min read
·Whisper Notes Team

Whisper ট্রান্সক্রিপশন মানে OpenAI-এর Whisper দিয়ে কথাকে টেক্সটে রূপান্তর করা — এটি একটি ওপেন-সোর্স AI মডেল, যা ক্লাউডে, সার্ভারে, কিংবা সম্পূর্ণভাবে আপনার নিজের ডিভাইসে চালানো যায়। এই গাইডে থাকছে Whisper কীভাবে কাজ করে, কোন মডেল সাইজ বেছে নেবেন, এর প্রকৃত নির্ভুলতা কতটা, আর Mac বা iPhone-এ অফলাইনে চালানোর দ্রুততম উপায়।

Whisper আসলে কী?

Whisper একটি অটোমেটিক স্পিচ রিকগনিশন (ASR) মডেল, যা OpenAI ২০২২ সালের সেপ্টেম্বরে MIT লাইসেন্সে প্রকাশ করে। এটি একটি encoder-decoder ট্রান্সফরমার, ৬,৮০,০০০ ঘণ্টারও বেশি বহুভাষিক অডিওতে প্রশিক্ষিত, এবং প্রায় ১০০টি ভাষায় ট্রান্সক্রিপশনের পাশাপাশি ইংরেজিতে অনুবাদও করতে পারে।

আপনার জন্য সবচেয়ে গুরুত্বপূর্ণ অংশটি হলো: মডেলের ওয়েটগুলো উন্মুক্ত। Google বা Amazon-এর স্পিচ API-এর মতো নয় — Whisper-কে অন্য কারও সার্ভারে চলতে হয় না। এটি লোকালভাবে চালানোর জন্য একটি সম্পূর্ণ ইকোসিস্টেম রয়েছে — whisper.cpp, faster-whisper, আর Whisper Notes-এর মতো নেটিভ অ্যাপ। এ কারণেই সত্যিকারের অফলাইন, ব্যক্তিগত ট্রান্সক্রিপশন সম্ভব হয়।

Whisper মডেলের সাইজ: কোনটি ব্যবহার করবেন

Whisper ছয়টি প্রধান সাইজে আসে। যত বড়, তত নির্ভুল — আর তত ধীর:

মডেল প্যারামিটার গতি যার জন্য সেরা
tiny 39M দ্রুততম দ্রুত খসড়া, দুর্বল হার্ডওয়্যার
base 74M খুব দ্রুত সহজ, পরিষ্কার অডিও
small 244M দ্রুত মোবাইলে গতি/নির্ভুলতার ভালো ভারসাম্য
medium 769M মাঝারি আজকাল খুব কমই সঠিক পছন্দ
large-v3 1.55B সবচেয়ে ধীর সর্বোচ্চ নির্ভুলতা, কঠিন অডিও
large-v3-turbo 809M large-v3-এর চেয়ে ~৫ গুণ দ্রুত ২০২৬ সালের ডিফল্ট পছন্দ

প্রায় সবার জন্যই উত্তরটি large-v3-turbo: এটি large-v3-এর encoder ধরে রাখে, কিন্তু decoder-এর লেয়ার ৩২ থেকে কমিয়ে ৪-এ নামায় — অনেক কম কম্পিউটে প্রায় একই নির্ভুলতা। আমরা এর বিস্তারিত বেঞ্চমার্ক করেছি Whisper Large V3 Turbo vs V3-তে।

Whisper ট্রান্সক্রিপশন কতটা নির্ভুল?

পরিষ্কার ইংরেজি অডিওতে বড় মডেলগুলো প্রায় ৫-৮% ওয়ার্ড এরর রেটে (WER) পৌঁছায় — বেশিরভাগ ব্যবহারিক কাজে যা পেশাদার মানব ট্রান্সক্রিপশনের সমতুল্য। ব্যাকগ্রাউন্ড শব্দ, ভারী উচ্চারণভঙ্গি, একসাথে কথা বলা আর কম-রিসোর্সের ভাষায় নির্ভুলতা কমে যায়।

Whisper-এর একটি কুখ্যাত দুর্বলতা: নীরবতার সময় হ্যালুসিনেশন। এর অটোরিগ্রেসিভ decoder মাঝে মাঝে কেউ কথা না বললেও পুনরাবৃত্ত বাক্যাংশ বা সাবটাইটেল ক্রেডিট বানিয়ে ফেলে। নতুন মডেলগুলো এটি ঠিক করেছে — NVIDIA-র Parakeet V3-কে বিশেষভাবে নন-স্পিচ অডিওতে প্রশিক্ষণ দেওয়া হয়েছে এবং আমাদের পরীক্ষায় এটি শূন্য হ্যালুসিনেশন দিয়েছে (সম্পূর্ণ Parakeet V3 vs Whisper বেঞ্চমার্ক)।

চীনা, জাপানি, কোরিয়ান ও ক্যান্টনিজের জন্য একটি বিশেষায়িত মডেল গতি ও যতিচিহ্ন — দুই দিকেই Whisper-কে ছাড়িয়ে যায়: দেখুন CJK ভাষার জন্য SenseVoice vs Whisper

Whisper ট্রান্সক্রিপশন চালানোর ৫টি উপায়

পদ্ধতি খরচ প্রাইভেসি সেটআপ
OpenAI API প্রতি অডিও মিনিটে পেমেন্ট অডিও আপলোড হয় API কী + কোড
openai-whisper (রেফারেন্স Python) বিনামূল্যে ১০০% লোকাল Python এনভায়রনমেন্ট, GPU থাকা ভালো
whisper.cpp / faster-whisper বিনামূল্যে ১০০% লোকাল কমান্ড লাইন
নেটিভ অ্যাপ (Whisper Notes) $6.99 একবার, Mac-এ ফ্রি ট্রায়াল ১০০% অন-ডিভাইস কিছুই না
ওয়েব ডেমো টুল সীমিত ফ্রি টিয়ার অডিও আপলোড হয় কিছুই না

সহজ নিয়ম: আপনি যদি টার্মিনালেই দিন কাটান, faster-whisper চমৎকার। যদি কোনো প্রোডাক্ট বানান, API-ই যুক্তিসঙ্গত (ডেভেলপারদের জন্য প্রতি অডিও মিনিটে $0.006)। আর যদি শুধু Python না ছুঁয়ে নিজের রেকর্ডিং ব্যক্তিগতভাবে টেক্সটে রূপান্তর করতে চান, নেটিভ অ্যাপ ব্যবহার করুন — Whisper Mac অ্যাপগুলোর অস্তিত্বের পুরো কারণই এটি।

অফলাইন টুলগুলো আরও বিস্তৃতভাবে যাচাই করতে চান — Windows ও Android-এর বিকল্পসহ? দেখুন আমাদের সম্পূর্ণ অফলাইন স্পিচ-টু-টেক্সট গাইড

Whisper vs নতুন লোকাল মডেল (২০২৬)

লোকাল ট্রান্সক্রিপশনের যুগ Whisper-ই শুরু করেছিল, কিন্তু এখন সে আর একা নয়। নিচের গতিগুলো M4 Pro Mac-এ মাপা:

মডেল ভাষা গতি বিশেষত্ব
Whisper Large V3 Turbo ১০০+ ~১২x রিয়েলটাইম সবচেয়ে বিস্তৃত ভাষা কভারেজ
Parakeet V3 ২৫ (ইউরোপীয়) ~১০০x রিয়েলটাইম 6.32% WER, নীরবতায় কোনো হ্যালুসিনেশন নেই
SenseVoice Small zh, ja, ko, yue, en ~৫২x রিয়েলটাইম চীনা, জাপানি, কোরিয়ানের জন্য সেরা

তিনটি মডেলই Whisper Notes-এ লোকালভাবে চলে, আর প্রতিটি রেকর্ডিংয়ের জন্য আলাদা করে মডেল বদলানো যায়। পাশাপাশি তুলনার বেঞ্চমার্ক রয়েছে আমাদের Whisper মডেল তুলনা পেজে

Mac ও iPhone-এ Whisper ট্রান্সক্রিপশন অফলাইনে যেভাবে চালাবেন

কোনো কমান্ড লাইন নেই, Python নেই, ক্লাউড নেই:

  1. Mac-এর জন্য Whisper Notes ডাউনলোড করুন (ফ্রি ট্রায়াল) অথবা iPhone-এর জন্য ($6.99 একবার)।
  2. মডেল বেছে নিন: বিস্তৃত ভাষা কভারেজের জন্য Whisper Large V3 Turbo, ইংরেজিতে গতির জন্য Parakeet V3, CJK-এর জন্য SenseVoice। একবার ডাউনলোড হয়, তারপর চিরকাল অফলাইনে কাজ করে।
  3. সরাসরি রেকর্ড করুন, Fn চেপে ধরে যেকোনো অ্যাপে ডিক্টেট করুন, অথবা অডিও-ভিডিও ফাইল ফেলে দিন (MP3, WAV, M4A, MP4)।
  4. প্রসেসিংয়ের সাথে সাথেই টেক্সট আসতে থাকে। TXT বা SRT হিসেবে এক্সপোর্ট করুন।

"অফলাইন" নিয়ে সন্দেহ? আগে এয়ারপ্লেন মোড চালু করুন। ট্রান্সক্রিপশন পূর্ণ গতিতেই চলবে — কিছুই আপলোড হয় না, কখনোই না।

বাংলায় Whisper ট্রান্সক্রিপশন কতটা নির্ভুল? কোন মডেল বেছে নেবেন?

বাংলার জন্য সঠিক পছন্দ Whisper Large V3 Turbo: এর কভার করা ১০০+ ভাষার মধ্যে বাংলা রয়েছে — যেখানে Parakeet V3 (শুধু ইউরোপীয় ভাষা) ও SenseVoice (চীনা/জাপানি/কোরিয়ান) বাংলা সমর্থন করে না। ~1.5GB-এর এই মডেলটি Whisper Notes-এ একবার ডাউনলোড হয়, তারপর Mac ও iPhone দুটোতেই সম্পূর্ণ অফলাইনে চলে। পরিষ্কার অডিও ও কাছের মাইক্রোফোনে ফলাফল সবচেয়ে ভালো; আঞ্চলিক উচ্চারণ বা মিশ্র বাংলা-ইংরেজিতে নির্ভুলতা কিছুটা কমতে পারে — তাই কেনার আগে Mac-এর ফ্রি ট্রায়ালে নিজের আসল রেকর্ডিং দিয়ে যাচাই করে নিন।

সচরাচর জিজ্ঞাসিত প্রশ্ন

Whisper ট্রান্সক্রিপশন কি বিনামূল্যে?

মডেলটি নিজে বিনামূল্যে ও ওপেন সোর্স (MIT লাইসেন্স)। whisper.cpp-এর মতো কমান্ড-লাইন টুল দিয়ে চালাতে কোনো খরচ নেই, তবে সেটআপ লাগে। OpenAI-এর API প্রতি অডিও মিনিটে চার্জ করে। নেটিভ অ্যাপগুলো ছোট একটি ফি-র বিনিময়ে মডেল প্যাকেজ করে দেয় — Whisper Notes $6.99 একবারের জন্য, Mac-এ ফ্রি ট্রায়ালসহ।

Whisper ট্রান্সক্রিপশন কি অফলাইনে চলতে পারে?

হ্যাঁ — ওপেন ওয়েটের মূল উদ্দেশ্যই এটি। মডেল ফাইলটি একবার আপনার ডিভাইসে এলে আর ইন্টারনেট লাগে না। Whisper Notes CoreML/Metal-এর মাধ্যমে Apple Silicon-এ Whisper Large V3 Turbo চালায়, সম্পূর্ণ অফলাইনে। এয়ারপ্লেন মোড দিয়ে যাচাই করে নিতে পারেন।

কোন Whisper মডেল সবচেয়ে নির্ভুল?

কাঁচা নির্ভুলতায় large-v3 সেরা। large-v3-turbo WER-এ এক শতাংশের ভগ্নাংশ ব্যবধানে তার সমান, অথচ প্রায় ৫ গুণ দ্রুত চলে — এজন্যই আজ বেশিরভাগ টুলে এটিই ডিফল্ট।

Whisper কি আমার ভাষা সমর্থন করে?

Whisper প্রায় ১০০টি ভাষা কভার করে, উচ্চ-রিসোর্সের ভাষায় (ইংরেজি, স্প্যানিশ, জার্মান, ফরাসি ইত্যাদি) সবচেয়ে শক্তিশালী। চীনা, জাপানি, কোরিয়ান ও ক্যান্টনিজের জন্য SenseVoice Apple Silicon-এ আরও ভালো যতিচিহ্ন ও অনেক বেশি গতি দেয়।

iPhone-এর জন্য কি কোনো Whisper ট্রান্সক্রিপশন অ্যাপ আছে?

হ্যাঁ। Whisper Notes iPhone-এর নিউরাল ইঞ্জিনের জন্য অপ্টিমাইজ করা Whisper মডেল চালায় (iPhone 12 ও নতুন) — রেকর্ড করুন, Voice Memos বা Files থেকে ইমপোর্ট করুন, আর পুরো ট্রান্সক্রিপশন ডিভাইসেই পান, $6.99-এ, কোনো সাবস্ক্রিপশন ছাড়া।