OpenAI-এর Whisper Large-v3 Turbo decoder-কে 32 লেয়ার থেকে 4-এ কমিয়ে আনে, প্যারামিটার 1.55B থেকে 809M-এ নামিয়ে আনে। ফলাফল: প্রায় অভিন্ন নির্ভুলতায় 2-5× দ্রুত ট্রান্সক্রিপশন। Whisper Notes এটি Apple Silicon সহ Mac-এ উপলব্ধ করে।
V3 Turbo বনাম V3: কী পরিবর্তন হয়েছে
Turbo কোনো নতুন আর্কিটেকচার নয়। এটি ঠিক একই Whisper Large-v3 মডেল যেখানে decoder-কে 32 লেয়ার থেকে 4-এ prune করা হয়েছে, তারপর নির্ভুলতা পুনরুদ্ধারের জন্য fine-tune করা হয়েছে। encoder অপরিবর্তিত রয়েছে।
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| প্যারামিটার | 809M | 1,550M |
| Decoder লেয়ার | 4 | 32 |
| ভাষা | 99 | 99 |
| অনুবাদ কাজ | সমর্থিত নয় | সমর্থিত |
| লাইসেন্স | MIT | Apache 2.0 |
Turbo-র প্রশিক্ষণ ডেটা থেকে অনুবাদ কাজ স্পষ্টভাবে বাদ দেওয়া হয়েছিল। সম্পূর্ণ Large-v3 মডেল এটি সমর্থন করে, কিন্তু Whisper Notes শুধুমাত্র Turbo শিপ করে — অনুবাদ Apple Intelligence-এর মাধ্যমে আলাদাভাবে পরিচালিত হয়।
স্পিড বেঞ্চমার্ক: Apple Silicon-এ Whisper Notes
Mac-এর জন্য Whisper Notes-এ, Turbo Neural Engine-এ CoreML-এর মাধ্যমে চলে। 10 মিনিটের অডিও প্রক্রিয়াকরণ:
| ডিভাইস | Whisper V3 | V3 Turbo | গতি বৃদ্ধি |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5.2× |
| iPad Pro M2 | 380 s | 71 s | 5.4× |
| MacBook Pro M2 | 316 s | 63 s | 5.0× |
5× গতি বৃদ্ধি Apple Silicon-এ Whisper Notes-এর জন্য নির্দিষ্ট, যেখানে ছোট decoder Neural Engine অপ্টিমাইজেশন থেকে সুবিধা পায়। faster-whisper-এর মতো ফ্রেমওয়ার্ক সহ GPU-তে, ব্যবধান ~2.7×-এ কমে আসে (নিচে কমিউনিটি বেঞ্চমার্ক দেখুন)।
নির্ভুলতা: WER তুলনা
Hugging Face Open ASR Leaderboard উভয় মডেলকে একই ইংরেজি ডেটাসেটে পরীক্ষা করে। Turbo-র শব্দ ত্রুটি হার (WER) প্রতিটি বেঞ্চমার্কে V3-এর অর্ধেক পয়েন্টের মধ্যে রয়েছে:
| ডেটাসেট | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| গড় WER | 7.83% | 7.44% |
V3 প্রতিটি ডেটাসেটে সামান্য বেশি নির্ভুল, কিন্তু পার্থক্য ছোট — গড়ে 0.39 শতাংশ পয়েন্ট। বেশিরভাগ বাস্তব ট্রান্সক্রিপশনে, আপনি পার্থক্য টের পাবেন না।
YouTube-commons দীর্ঘ-ফর্ম মূল্যায়নে (সবচেয়ে বড় ওপেন-সোর্স ASR বেঞ্চমার্কগুলির একটি), Turbo 13.40% WER স্কোর করে বনাম V3-এর 13.20% — যখন 129.5× রিয়েল-টাইম ফ্যাক্টরে চলে বনাম 55.3×। অর্থাৎ বাস্তব অডিওতে প্রায় অভিন্ন নির্ভুলতায় 2.3× দ্রুত।
কমিউনিটি বেঞ্চমার্ক: GPU এবং CPU
faster-whisper এবং whisper.cpp কমিউনিটির স্বাধীন বেঞ্চমার্কগুলি বিভিন্ন হার্ডওয়্যারে সামঞ্জস্যপূর্ণ ফলাফল দেখায়। GPU-তে faster-whisper দিয়ে 13 মিনিটের অডিও ট্রান্সক্রাইব করা:
| মডেল | প্রিসিশন | সময় | GPU মেমোরি | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
সূত্র: NVIDIA GPU-তে faster-whisper বেঞ্চমার্ক, LibriSpeech clean ভ্যালিডেশন স্প্লিট। Turbo int8 মাত্র 1.5 GB VRAM ব্যবহার করে — এটি 2 GB GPU-তে ফিট হয়।
RTX 3060 Laptop-এ (6 GB VRAM, int8 প্রিসিশন) ব্যাচড ইনফারেন্স সুবিধা আরও বাড়ায়:
| মডেল | ক্রমানুসারে | ব্যাচড (10) | ব্যাচড WER |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
সূত্র: NilaierMusic বেঞ্চমার্ক, Intel i7-12650H + RTX 3060 Laptop 6 GB, ফরাসি অডিও, int8 প্রিসিশন।
ব্যাচড প্রসেসিং-এ, Turbo সমস্ত পরীক্ষিত মডেলের মধ্যে সেরা WER (7.7%) অর্জন করে এবং একই সাথে সবচেয়ে দ্রুত। এটি প্রোডাকশন ব্যবহারের জন্য স্পষ্টতই সেরা পছন্দ।
পরিচিত সীমাবদ্ধতা (এবং Whisper Notes কীভাবে সেগুলি সামলায়)
কোনো অন্তর্নির্মিত অনুবাদ নেই
Turbo অনুবাদ ডেটা ছাড়া প্রশিক্ষিত হয়েছে। এটি শুধুমাত্র উৎস ভাষায় ট্রান্সক্রাইব করে — Large-v3 থেকে ভিন্ন, যেটি অডিও→ইংরেজি অনুবাদ সমর্থন করে।
Whisper Notes — Apple Intelligence স্বয়ংক্রিয়ভাবে ট্রান্সক্রিপ্ট আপনার নির্বাচিত ভাষায় অনুবাদ করে, আপনি যে মডেলই ব্যবহার করুন না কেন দ্বিভাষিক আউটপুট প্রদান করে।
শোরগোলপূর্ণ অডিওতে বেশি হ্যালুসিনেশন
কমিউনিটি রিপোর্ট অনুযায়ী Turbo অত্যন্ত ছোট ক্লিপ বা শোরগোলপূর্ণ রেকর্ডিং-এ V3-এর তুলনায় বেশি হ্যালুসিনেট করে। হ্রাসকৃত decoder (4 লেয়ার বনাম 32) বিবেচনায় এটি প্রত্যাশিত।
Whisper Notes — ট্রান্সক্রিপশনের আগে Pyannote VAD চালায়, কথার অংশ শনাক্ত করে এবং নীরবতা/শব্দ সরিয়ে দেয় যাতে মডেল শুধুমাত্র প্রকৃত কণ্ঠ প্রক্রিয়া করে।
আপনার কোন মডেল ব্যবহার করা উচিত?
| ইংরেজি / ইউরোপীয় | Parakeet V3 — Whisper-এর চেয়ে 10× দ্রুত, উন্নত নির্ভুলতা |
| চীনা / জাপানি / কোরীয় | SenseVoice — CJK-এর জন্য তৈরি, 52× গতি |
| অন্যান্য ভাষা | Whisper Large V3 Turbo — 99 ভাষা, উচ্চ নির্ভুলতা, ধীর |