সারসংক্ষেপ — তিনটি Mac মডেলের তুলনা
| Parakeet V3 | SenseVoice Small | Whisper Large V3 Turbo | |
|---|---|---|---|
| 5 মিনিট ইংরেজি | 2.91s (103×) | 5.8s (52×) | 20.92s (14.3×) |
| 27 মিনিট চীনা | 10.10s (161×) | 13.83s (118×) | 2 মিনিট 4s (13.1×) |
| ভাষা | 25 (ইউরোপীয়) | 5 (zh, en, ja, ko, yue) | 99+ |
| ডাউনলোড | 465 MB | 827 MB | 1.5 GB |
| মেমোরি | ~800 MB | ~700 MB | ~1.6 GB |
| সেরা ব্যবহার | ইংরেজি & ইউরোপীয় ভাষা | চীনা, জাপানি, কোরীয়, ক্যান্টনিজ | বাকি সব (99+ ভাষা) |
* গতি পরীক্ষা Apple M4 Pro, 32 GB-তে। 5 মিনিটের ইংরেজি পডকাস্ট এবং 27 মিনিটের চীনা পডকাস্ট। রিয়েলটাইম ফ্যাক্টর = অডিও সময়কাল ÷ প্রসেসিং সময় (বেশি = দ্রুত)। SenseVoice শুধুমাত্র macOS-এর জন্য। iOS Parakeet (ANE-এর মাধ্যমে) এবং Whisper ব্যবহার করে।
সংস্করণ 1.4.8 থেকে শুরু করে, Mac-এর জন্য Whisper Notes চীনা, জাপানি, কোরীয় এবং ক্যান্টনিজ ট্রান্সক্রিপশনের জন্য নিবেদিত ইঞ্জিন হিসেবে SenseVoice Small নিয়ে আসে। এটি Qwen3-ASR-এর স্থান নেয় এবং CPU-এর পরিবর্তে MLX-এর মাধ্যমে Apple-এর GPU-তে চলে — 27 মিনিটের চীনা পডকাস্ট 3 মিনিট 44 সেকেন্ডের বদলে 13.83 সেকেন্ডে প্রসেস করে।
আমরা কেন Qwen3-ASR বদলালাম
Qwen3-ASR একটি শক্তিশালী মডেল ছিল। এটি 30টি ভাষা এবং 22টি চীনা উপভাষা সমর্থন করত, এবং এর চীনা নির্ভুলতা প্রায় সর্বোচ্চ মানের ছিল। কিন্তু অডিও যত দীর্ঘ হতো তত বাড়তে থাকা একটি সমস্যা ছিল: গতি।
Qwen3 অটোরিগ্রেসিভ আর্কিটেকচার ব্যবহার করত — Whisper-এর মতো একই পদ্ধতি, ফ্রেম বাই ফ্রেম অডিও প্রসেস করা, কখনো এগিয়ে যায় না। 27 মিনিটের চীনা পডকাস্টে এটি 73 সেকেন্ড নিত। ব্যবহারযোগ্য, কিন্তু Parakeet V3 ইংরেজির জন্য যে তাৎক্ষণিক ফলাফল দেয় সেই অভিজ্ঞতা থেকে দূরে।
গভীর সমস্যাটি ছিল আমাদের অবকাঠামোতে। আমাদের Qwen3 ইন্টিগ্রেশন sherpa-onnx ব্যবহার করত, একটি C লাইব্রেরি যার 2,249 লাইনের Swift র্যাপার সবকিছু CPU কোরের মাধ্যমে রুট করত। আপনার Mac-এর CPU সব কাজ করার সময় GPU অলস বসে থাকত।
SenseVoice দুটি সমস্যাই সমাধান করেছে। গতির জন্য নন-অটোরিগ্রেসিভ আর্কিটেকচার। GPU ত্বরণের জন্য Apple MLX। ফলাফল: একই হার্ডওয়্যারে 16.2 গুণ গতি বৃদ্ধি, কোডবেস 2,249 লাইন থেকে কমে 288 হয়েছে।
বেঞ্চমার্ক
তিনটি মডেলই একই Apple M4 Pro-তে, একই অডিও ফাইল, একই শর্তে চালানো হয়েছে। কোনো ক্লাউড নেই। কোনো ইন্টারনেট নেই। শুধু সিলিকন।
| মডেল | 5 মিনিট ইংরেজি | 27 মিনিট চীনা | গতি (RTFx) |
|---|---|---|---|
| Parakeet V3 | 2.91s | 10.10s | 103–161× |
| SenseVoice Small | 5.8s | 13.83s | 52–118× |
| Whisper Large V3 Turbo | 20.92s | 2 মিনিট 4s | 13–14× |
| Qwen3-ASR (সরানো হয়েছে) | — | 73s | 4.7× |
SenseVoice Parakeet V3-এর প্রায় অর্ধেক গতির — তবুও অসাধারণ দ্রুত। 27 মিনিটের একটি পডকাস্ট 14 সেকেন্ডের কমে শেষ হয়। আপনি ট্রান্সক্রাইব চাপেন, এক নিশ্বাস অপেক্ষা করেন, এবং টেক্সট তৈরি।
এটিকে Whisper-এর 2 মিনিট 4 সেকেন্ড বা পুরনো Qwen3-এর 73 সেকেন্ডের সাথে তুলনা করুন। আর্কিটেকচার প্যারামিটার সংখ্যার চেয়ে বেশি গুরুত্বপূর্ণ।
FunAudioLLM পেপার থেকে অফিসিয়াল ইনফারেন্স বেঞ্চমার্ক: SenseVoice-Small 10 সেকেন্ডের অডিও 70ms-এ প্রসেস করে (A800 GPU)। Whisper-Large-V3 নেয় 1,281ms। র ইনফারেন্স লেটেন্সিতে 18 গুণ পার্থক্য।
| মডেল | লোড সময় | মেমোরি | ডাউনলোড সাইজ |
|---|---|---|---|
| Parakeet V3 | 0.77s | ~800 MB | 465 MB |
| SenseVoice Small | 0.81s | ~700 MB | 827 MB |
| Whisper Small | 1.03s | ~487 MB | 600 MB |
| Whisper Large V3 Turbo | 3.18s | ~1.6 GB | 3 GB |
* লোড সময় এবং মেমোরি Apple M4 Pro, 32 GB-তে পরিমাপ করা হয়েছে।
SenseVoice এক সেকেন্ডের কমে লোড হয় এবং Parakeet-এর চেয়ে কম মেমোরি ব্যবহার করে। 8 GB Mac-এ, এটি আপনার অন্যান্য অ্যাপ্লিকেশনের পাশাপাশি আরামে চলে।
SenseVoice কেন দ্রুত: আর্কিটেকচার + রানটাইম
Qwen3-ASR এবং SenseVoice-এর মধ্যে গতির ব্যবধান দুটি স্বতন্ত্র কারণ থেকে আসে।
কারণ 1: মডেল আর্কিটেকচার। Qwen3-ASR অটোরিগ্রেসিভ — এটি টেক্সট টোকেন একে একে তৈরি করে, প্রতিটি আগেরটির উপর নির্ভরশীল। SenseVoice একটি নন-অটোরিগ্রেসিভ (NAR) এনকোডার ব্যবহার করে যা সম্পূর্ণ অডিও সমান্তরালে প্রসেস করে। এই আর্কিটেকচারাল পার্থক্যই SenseVoice-কে মৌলিকভাবে দ্রুত করে, আপনি যেকোনো হার্ডওয়্যারে চালান না কেন।
কারণ 2: রানটাইম। আমাদের Qwen3-ASR ইন্টিগ্রেশন sherpa-onnx ব্যবহার করত, যা CPU-তে চলত। SenseVoice Apple MLX-এর মাধ্যমে চলে, কম্পিউটেশন GPU-তে পাঠায়। Qwen3-ও কি MLX-এ চলতে পারত? হ্যাঁ — কিন্তু এটি এখনও SenseVoice-এর চেয়ে ধীর হতো কারণ অটোরিগ্রেসিভ বটলনেক আর্কিটেকচারে, রানটাইমে নয়।
| Qwen3-ASR (পুরনো) | SenseVoice (নতুন) | |
|---|---|---|
| আর্কিটেকচার | অটোরিগ্রেসিভ (টোকেন বাই টোকেন) | নন-অটোরিগ্রেসিভ (সমান্তরাল) |
| রানটাইম | sherpa-onnx (CPU) | Apple MLX (GPU) |
| 27 মিনিট চীনা | 224 সেকেন্ড | 13.83 সেকেন্ড |
| সম্মিলিত গতিবৃদ্ধি | বেসলাইন | 16.2× দ্রুত |
| কোডবেস | 168 MB C ফ্রেমওয়ার্ক + 2,249 লাইন Swift | 288 লাইন Swift Actor |
* একই 27 মিনিটের চীনা পডকাস্ট, Apple M4 Pro। 16.2× গতিবৃদ্ধি আর্কিটেকচারাল (NAR বনাম AR) এবং রানটাইম (GPU বনাম CPU) উভয় উন্নতি মিলিয়ে।
কোডও সহজ হয়েছে। নতুন SenseVoice ইমপ্লিমেন্টেশন একটি একক 288 লাইনের Swift Actor যা সরাসরি MLX-এর সাথে যোগাযোগ করে, 168 MB C ফ্রেমওয়ার্কের স্থান নিয়েছে। কম কোড, কম বাগ, ছোট অ্যাপ।
পাঁচটি ভাষা, ভালোভাবে
SenseVoice সব করার চেষ্টা করে না। এটি পাঁচটি ভাষা সামলায়:
| ভাষা | SenseVoice-Small | Whisper-Large-V3 | বিজয়ী |
|---|---|---|---|
| চীনা (zh-CN) | 10.78% CER | 12.55% CER | SenseVoice (-14%) |
| ক্যান্টনিজ (yue) | 7.09% CER | 10.41% CER | SenseVoice (-32%) |
| জাপানি (ja) | 11.96% CER | 10.34% CER | Whisper (সামান্য) |
| কোরীয় (ko) | 8.28% CER | 5.59% CER | Whisper |
| ইংরেজি (en) | 14.71% WER | 9.39% WER | Whisper (Parakeet ব্যবহার করুন) |
* CommonVoice বেঞ্চমার্ক, CER = ক্যারেক্টার এরর রেট, WER = ওয়ার্ড এরর রেট। কম ভালো। সূত্র: FunAudioLLM পেপার (2024)। SenseVoice-Small ইনফারেন্স লেটেন্সি: 10s অডিওর জন্য 70ms (A800 GPU), Whisper-Large-V3-এর চেয়ে 15 গুণেরও বেশি দ্রুত।
CommonVoice বেঞ্চমার্ক: SenseVoice-Small (হলুদ) বনাম Whisper-Small (নীল) বনাম Whisper-Large-V3 (কমলা)। কম ভালো। সূত্র: FunAudioLLM পেপার
সংখ্যাগুলো একটি সৎ গল্প বলে। SenseVoice চীনা এবং ক্যান্টনিজ নির্ভুলতায় Whisper-কে উল্লেখযোগ্য ব্যবধানে হারায়, যেখানে Whisper জাপানি, কোরীয় এবং ইংরেজির জন্য বেশি নির্ভুল। কিন্তু SenseVoice Whisper-Large-V3-এর চেয়ে 15 গুণেরও বেশি দ্রুত। বেশিরভাগ বাস্তব ব্যবহারে, গতির পার্থক্য নির্ভুলতার কয়েক শতাংশ পয়েন্টের চেয়ে বেশি গুরুত্বপূর্ণ।
ক্যান্টনিজ ফলাফলটি আলাদাভাবে উল্লেখের যোগ্য। Whisper-Small ক্যান্টনিজে 38.97% CER পায় — প্রায় ব্যবহারের অযোগ্য। এমনকি Whisper-Large-V3 শুধু 10.41% অর্জন করে। SenseVoice 7.09% পায়। SenseVoice-এর আগে, Mac-এ স্থানীয়ভাবে ক্যান্টনিজ ট্রান্সক্রাইব করার ভালো কোনো উপায় ছিল না। আপনি যদি ক্যান্টনিজ বলেন, এই মডেলটি আপনার জন্য।
SenseVoice দিয়ে কোরীয় ট্রান্সক্রিপশন: টাইমস্ট্যাম্পড সাবটাইটেল সহ ভিডিও ইম্পোর্ট
বাস্তব পরীক্ষা: 27 মিনিটের চীনা পডকাস্ট
আমরা Thirteen Invitations (十三邀), একটি চীনা সাক্ষাৎকার পডকাস্টের 27 মিনিটের একটি পর্ব, একই M4 Pro-তে SenseVoice এবং Whisper Large V3 Turbo উভয় দিয়ে ট্রান্সক্রাইব করেছি। ElevenLabs Scribe (ক্লাউড) রেফারেন্স হিসেবে ব্যবহৃত হয়েছে। উভয় অন-ডিভাইস মডেল মোটামুটি একই সংখ্যক ত্রুটি করে, তবে ভিন্ন ধরনের:
| SenseVoice | Whisper Large V3 | |
|---|---|---|
| সময় | 13.83s | 2 মিনিট 4s |
| ত্রুটি (5 মিনিটের নমুনা) | ~15–20 | ~12–15 |
| সবচেয়ে খারাপ ত্রুটি | 时差→食堂 (সময়ের পার্থক্য→ক্যান্টিন) | 西昌→西藏 (শিচাং শহর→তিব্বত, 4,000 কিমি ভুল) |
| ত্রুটির ধরন | সমোচ্চারিত শব্দ বদল | ভৌগোলিক/তথ্যগত ত্রুটি |
* ElevenLabs Scribe (ক্লাউড রেফারেন্স, এটিও নিখুঁত নয়)-এর সাথে ম্যানুয়াল তুলনা। উভয় অন-ডিভাইস মডেল "根深蒂固" সঠিকভাবে লিখেছে যেখানে Scribe ভুল করেছে।
তুলনীয় নির্ভুলতা। 9 গুণ দ্রুত। বাস্তব চীনা ট্রান্সক্রিপশনের জন্য, SenseVoice আপনাকে Whisper লোড শেষ করার আগেই ব্যবহারযোগ্য ট্রান্সক্রিপ্ট দেয়।
কোন মডেল কখন ব্যবহার করবেন
Mac-এর জন্য Whisper Notes এখন চারটি স্পিচ মডেল নিয়ে আসে। প্রতিটি ভিন্ন পরিস্থিতির জন্য অপ্টিমাইজ করা:
| আপনার প্রয়োজন... | এই মডেল ব্যবহার করুন | কেন |
|---|---|---|
| ইংরেজি বা ইউরোপীয় ভাষা, সর্বোচ্চ গতি | Parakeet V3 | 103× রিয়েলটাইম, সবচেয়ে কম এরর রেট। ডিফল্ট। |
| চীনা, জাপানি, কোরীয়, বা ক্যান্টনিজ | SenseVoice Small | 52–118× রিয়েলটাইম। ক্যান্টনিজ সাপোর্ট সহ একমাত্র মডেল। |
| 99+ ভাষার যেকোনোটি (আরবি, থাই, রুশ, ইত্যাদি) | Whisper Large V3 Turbo | সবচেয়ে বিস্তৃত ভাষা সাপোর্ট। ধীর কিন্তু সর্বজনীন। |
| কম মেমোরি ব্যবহার (পুরনো Mac) | Whisper Small | 487 MB মেমোরি। অন্যান্য অ্যাপ চালানো 8 GB Mac-এর জন্য ভালো। |
সেটিংস → ট্রান্সক্রিপশন মডেল: আপনার ভাষার জন্য সঠিক ইঞ্জিন বেছে নিন
সেটিংসের মডেল পিকার চারটি অপশন ডাউনলোড সাইজ, ভাষার সংখ্যা এবং মেমোরি প্রয়োজনীয়তা সহ দেখায়। SenseVoice প্রথম ব্যবহারে ডাউনলোড হয় (~827 MB) এবং আপনার ডিভাইসে থাকে।
সীমাবদ্ধতা
SenseVoice একটি সর্বজনীন মডেল নয়। এটি যা করতে পারে না:
• মাত্র 5টি ভাষা। আপনার যদি থাই, রুশ, আরবি, হিন্দি, বা Whisper সমর্থিত অন্যান্য 90+ ভাষার কোনোটি দরকার হয়, Whisper ব্যবহার করুন।
• শুধু Mac। SenseVoice Apple MLX-এর মাধ্যমে চলে, যার জন্য macOS প্রয়োজন। iPhone-এ পাওয়া যায় না। iOS ব্যবহারকারীদের কাছে Parakeet (ইউরোপীয় ভাষার জন্য) এবং Whisper আছে।
• শান্ত অডিও সমস্যা। খুব ছোট বা খুব শান্ত অংশে, SenseVoice কখনো কখনো নির্বাচিত ভাষা নির্বিশেষে চীনা আউটপুটে ফিরে যেতে পারে। ভাষা ম্যানুয়ালি সেট করলে ("Auto"-এর বদলে) এটি কমে।
• স্ট্রিমিং নেই। Whisper-এর স্ট্রিমিং মোডের বিপরীতে, SenseVoice রেকর্ডিংয়ের পর সম্পূর্ণ অডিও প্রসেস করে। দীর্ঘ ফাইলের জন্য, এটি নীরব পয়েন্টে স্বয়ংক্রিয়ভাবে ভাগ করে এবং ফলাফল ধীরে ধীরে দেখায়।
এগুলো আর্কিটেকচারাল সীমাবদ্ধতা, বাগ নয়। 5টি ভাষায় প্রশিক্ষিত একটি মডেল সেই 5টি ভাষা অত্যন্ত ভালোভাবে করে। Whisper-এর 99+ ভাষা সাপোর্ট ধীর গতি এবং যেকোনো পৃথক ভাষায় উচ্চ এরর রেটের সাথে আসে।
ব্যবহার করে দেখুন
SenseVoice Mac-এর জন্য Whisper Notes v1.4.8 এবং পরবর্তীতে পাওয়া যায়। সেটিংস → ট্রান্সক্রিপশন মডেল → SenseVoice Small (~827 MB) থেকে ডাউনলোড করুন। এর জন্য Apple Silicon Mac (M1 বা পরবর্তী) প্রয়োজন।
আপনি যদি Parakeet V3-তে থাকেন এবং বেশিরভাগ ইংরেজিতে ডিক্টেট করেন, তাহলে পাল্টানোর দরকার নেই। SenseVoice তখনই যখন আপনার চীনা, জাপানি, কোরীয়, বা ক্যান্টনিজ দরকার — এবং আপনি এটি দ্রুত চান।
সম্পূর্ণ চেঞ্জলগ: whispernotes.app/changelog
প্রশ্ন বা মতামত: mac@whispernotes.app