Whisper Large V3 Turbo vs V3: Mac-এ 5 গুণ দ্রুত (বেঞ্চমার্ক)

৬ নভেম্বর, ২০২৪
·
6 min read
·Whisper Notes Team

OpenAI-এর Whisper Large-v3 Turbo decoder-কে 32 লেয়ার থেকে 4-এ কমিয়ে আনে, প্যারামিটার 1.55B থেকে 809M-এ নামিয়ে আনে। ফলাফল: প্রায় অভিন্ন নির্ভুলতায় 2-5× দ্রুত ট্রান্সক্রিপশন। Whisper Notes এটি Apple Silicon সহ Mac-এ উপলব্ধ করে।

Whisper Large V3 Turbo বনাম V3 আর্কিটেকচার তুলনা

V3 Turbo বনাম V3: কী পরিবর্তন হয়েছে

Turbo কোনো নতুন আর্কিটেকচার নয়। এটি ঠিক একই Whisper Large-v3 মডেল যেখানে decoder-কে 32 লেয়ার থেকে 4-এ prune করা হয়েছে, তারপর নির্ভুলতা পুনরুদ্ধারের জন্য fine-tune করা হয়েছে। encoder অপরিবর্তিত রয়েছে।

Large-v3 Turbo Large-v3
প্যারামিটার 809M 1,550M
Decoder লেয়ার 4 32
ভাষা 99 99
অনুবাদ কাজ সমর্থিত নয় সমর্থিত
লাইসেন্স MIT Apache 2.0

Turbo-র প্রশিক্ষণ ডেটা থেকে অনুবাদ কাজ স্পষ্টভাবে বাদ দেওয়া হয়েছিল। সম্পূর্ণ Large-v3 মডেল এটি সমর্থন করে, কিন্তু Whisper Notes শুধুমাত্র Turbo শিপ করে — অনুবাদ Apple Intelligence-এর মাধ্যমে আলাদাভাবে পরিচালিত হয়।

স্পিড বেঞ্চমার্ক: Apple Silicon-এ Whisper Notes

Mac-এর জন্য Whisper Notes-এ, Turbo Neural Engine-এ CoreML-এর মাধ্যমে চলে। 10 মিনিটের অডিও প্রক্রিয়াকরণ:

ডিভাইস Whisper V3 V3 Turbo গতি বৃদ্ধি
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

5× গতি বৃদ্ধি Apple Silicon-এ Whisper Notes-এর জন্য নির্দিষ্ট, যেখানে ছোট decoder Neural Engine অপ্টিমাইজেশন থেকে সুবিধা পায়। faster-whisper-এর মতো ফ্রেমওয়ার্ক সহ GPU-তে, ব্যবধান ~2.7×-এ কমে আসে (নিচে কমিউনিটি বেঞ্চমার্ক দেখুন)।

নির্ভুলতা: WER তুলনা

Hugging Face Open ASR Leaderboard উভয় মডেলকে একই ইংরেজি ডেটাসেটে পরীক্ষা করে। Turbo-র শব্দ ত্রুটি হার (WER) প্রতিটি বেঞ্চমার্কে V3-এর অর্ধেক পয়েন্টের মধ্যে রয়েছে:

ডেটাসেট V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
গড় WER 7.83% 7.44%

V3 প্রতিটি ডেটাসেটে সামান্য বেশি নির্ভুল, কিন্তু পার্থক্য ছোট — গড়ে 0.39 শতাংশ পয়েন্ট। বেশিরভাগ বাস্তব ট্রান্সক্রিপশনে, আপনি পার্থক্য টের পাবেন না।

YouTube-commons দীর্ঘ-ফর্ম মূল্যায়নে (সবচেয়ে বড় ওপেন-সোর্স ASR বেঞ্চমার্কগুলির একটি), Turbo 13.40% WER স্কোর করে বনাম V3-এর 13.20% — যখন 129.5× রিয়েল-টাইম ফ্যাক্টরে চলে বনাম 55.3×। অর্থাৎ বাস্তব অডিওতে প্রায় অভিন্ন নির্ভুলতায় 2.3× দ্রুত।

কমিউনিটি বেঞ্চমার্ক: GPU এবং CPU

faster-whisper এবং whisper.cpp কমিউনিটির স্বাধীন বেঞ্চমার্কগুলি বিভিন্ন হার্ডওয়্যারে সামঞ্জস্যপূর্ণ ফলাফল দেখায়। GPU-তে faster-whisper দিয়ে 13 মিনিটের অডিও ট্রান্সক্রাইব করা:

মডেল প্রিসিশন সময় GPU মেমোরি WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

সূত্র: NVIDIA GPU-তে faster-whisper বেঞ্চমার্ক, LibriSpeech clean ভ্যালিডেশন স্প্লিট। Turbo int8 মাত্র 1.5 GB VRAM ব্যবহার করে — এটি 2 GB GPU-তে ফিট হয়।

RTX 3060 Laptop-এ (6 GB VRAM, int8 প্রিসিশন) ব্যাচড ইনফারেন্স সুবিধা আরও বাড়ায়:

মডেল ক্রমানুসারে ব্যাচড (10) ব্যাচড WER
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

সূত্র: NilaierMusic বেঞ্চমার্ক, Intel i7-12650H + RTX 3060 Laptop 6 GB, ফরাসি অডিও, int8 প্রিসিশন।

ব্যাচড প্রসেসিং-এ, Turbo সমস্ত পরীক্ষিত মডেলের মধ্যে সেরা WER (7.7%) অর্জন করে এবং একই সাথে সবচেয়ে দ্রুত। এটি প্রোডাকশন ব্যবহারের জন্য স্পষ্টতই সেরা পছন্দ।

পরিচিত সীমাবদ্ধতা (এবং Whisper Notes কীভাবে সেগুলি সামলায়)

কোনো অন্তর্নির্মিত অনুবাদ নেই

Turbo অনুবাদ ডেটা ছাড়া প্রশিক্ষিত হয়েছে। এটি শুধুমাত্র উৎস ভাষায় ট্রান্সক্রাইব করে — Large-v3 থেকে ভিন্ন, যেটি অডিও→ইংরেজি অনুবাদ সমর্থন করে।

Whisper Notes — Apple Intelligence স্বয়ংক্রিয়ভাবে ট্রান্সক্রিপ্ট আপনার নির্বাচিত ভাষায় অনুবাদ করে, আপনি যে মডেলই ব্যবহার করুন না কেন দ্বিভাষিক আউটপুট প্রদান করে।

শোরগোলপূর্ণ অডিওতে বেশি হ্যালুসিনেশন

কমিউনিটি রিপোর্ট অনুযায়ী Turbo অত্যন্ত ছোট ক্লিপ বা শোরগোলপূর্ণ রেকর্ডিং-এ V3-এর তুলনায় বেশি হ্যালুসিনেট করে। হ্রাসকৃত decoder (4 লেয়ার বনাম 32) বিবেচনায় এটি প্রত্যাশিত।

Whisper Notes — ট্রান্সক্রিপশনের আগে Pyannote VAD চালায়, কথার অংশ শনাক্ত করে এবং নীরবতা/শব্দ সরিয়ে দেয় যাতে মডেল শুধুমাত্র প্রকৃত কণ্ঠ প্রক্রিয়া করে।

আপনার কোন মডেল ব্যবহার করা উচিত?

ইংরেজি / ইউরোপীয় Parakeet V3 — Whisper-এর চেয়ে 10× দ্রুত, উন্নত নির্ভুলতা
চীনা / জাপানি / কোরীয় SenseVoice — CJK-এর জন্য তৈরি, 52× গতি
অন্যান্য ভাষা Whisper Large V3 Turbo — 99 ভাষা, উচ্চ নির্ভুলতা, ধীর