SenseVoice: Mac-এ চীনা, জাপানি ও কোরীয় ট্রান্সক্রিপশন 52× দ্রুত

১২ মে, ২০২৬
·
7 min read
·Whisper Notes Team

সারসংক্ষেপ — তিনটি Mac মডেলের তুলনা

Parakeet V3 SenseVoice Small Whisper Large V3 Turbo
5 মিনিট ইংরেজি 2.91s (103×) 5.8s (52×) 20.92s (14.3×)
27 মিনিট চীনা 10.10s (161×) 13.83s (118×) 2 মিনিট 4s (13.1×)
ভাষা 25 (ইউরোপীয়) 5 (zh, en, ja, ko, yue) 99+
ডাউনলোড 465 MB 827 MB 1.5 GB
মেমোরি ~800 MB ~700 MB ~1.6 GB
সেরা ব্যবহার ইংরেজি & ইউরোপীয় ভাষা চীনা, জাপানি, কোরীয়, ক্যান্টনিজ বাকি সব (99+ ভাষা)

* গতি পরীক্ষা Apple M4 Pro, 32 GB-তে। 5 মিনিটের ইংরেজি পডকাস্ট এবং 27 মিনিটের চীনা পডকাস্ট। রিয়েলটাইম ফ্যাক্টর = অডিও সময়কাল ÷ প্রসেসিং সময় (বেশি = দ্রুত)। SenseVoice শুধুমাত্র macOS-এর জন্য। iOS Parakeet (ANE-এর মাধ্যমে) এবং Whisper ব্যবহার করে।

সংস্করণ 1.4.8 থেকে শুরু করে, Mac-এর জন্য Whisper Notes চীনা, জাপানি, কোরীয় এবং ক্যান্টনিজ ট্রান্সক্রিপশনের জন্য নিবেদিত ইঞ্জিন হিসেবে SenseVoice Small নিয়ে আসে। এটি Qwen3-ASR-এর স্থান নেয় এবং CPU-এর পরিবর্তে MLX-এর মাধ্যমে Apple-এর GPU-তে চলে — 27 মিনিটের চীনা পডকাস্ট 3 মিনিট 44 সেকেন্ডের বদলে 13.83 সেকেন্ডে প্রসেস করে।

আমরা কেন Qwen3-ASR বদলালাম

Qwen3-ASR একটি শক্তিশালী মডেল ছিল। এটি 30টি ভাষা এবং 22টি চীনা উপভাষা সমর্থন করত, এবং এর চীনা নির্ভুলতা প্রায় সর্বোচ্চ মানের ছিল। কিন্তু অডিও যত দীর্ঘ হতো তত বাড়তে থাকা একটি সমস্যা ছিল: গতি।

Qwen3 অটোরিগ্রেসিভ আর্কিটেকচার ব্যবহার করত — Whisper-এর মতো একই পদ্ধতি, ফ্রেম বাই ফ্রেম অডিও প্রসেস করা, কখনো এগিয়ে যায় না। 27 মিনিটের চীনা পডকাস্টে এটি 73 সেকেন্ড নিত। ব্যবহারযোগ্য, কিন্তু Parakeet V3 ইংরেজির জন্য যে তাৎক্ষণিক ফলাফল দেয় সেই অভিজ্ঞতা থেকে দূরে।

গভীর সমস্যাটি ছিল আমাদের অবকাঠামোতে। আমাদের Qwen3 ইন্টিগ্রেশন sherpa-onnx ব্যবহার করত, একটি C লাইব্রেরি যার 2,249 লাইনের Swift র‍্যাপার সবকিছু CPU কোরের মাধ্যমে রুট করত। আপনার Mac-এর CPU সব কাজ করার সময় GPU অলস বসে থাকত।

SenseVoice দুটি সমস্যাই সমাধান করেছে। গতির জন্য নন-অটোরিগ্রেসিভ আর্কিটেকচার। GPU ত্বরণের জন্য Apple MLX। ফলাফল: একই হার্ডওয়্যারে 16.2 গুণ গতি বৃদ্ধি, কোডবেস 2,249 লাইন থেকে কমে 288 হয়েছে।

বেঞ্চমার্ক

তিনটি মডেলই একই Apple M4 Pro-তে, একই অডিও ফাইল, একই শর্তে চালানো হয়েছে। কোনো ক্লাউড নেই। কোনো ইন্টারনেট নেই। শুধু সিলিকন।

মডেল 5 মিনিট ইংরেজি 27 মিনিট চীনা গতি (RTFx)
Parakeet V3 2.91s 10.10s 103–161×
SenseVoice Small 5.8s 13.83s 52–118×
Whisper Large V3 Turbo 20.92s 2 মিনিট 4s 13–14×
Qwen3-ASR (সরানো হয়েছে) 73s 4.7×

SenseVoice Parakeet V3-এর প্রায় অর্ধেক গতির — তবুও অসাধারণ দ্রুত। 27 মিনিটের একটি পডকাস্ট 14 সেকেন্ডের কমে শেষ হয়। আপনি ট্রান্সক্রাইব চাপেন, এক নিশ্বাস অপেক্ষা করেন, এবং টেক্সট তৈরি।

এটিকে Whisper-এর 2 মিনিট 4 সেকেন্ড বা পুরনো Qwen3-এর 73 সেকেন্ডের সাথে তুলনা করুন। আর্কিটেকচার প্যারামিটার সংখ্যার চেয়ে বেশি গুরুত্বপূর্ণ।

FunAudioLLM পেপার থেকে অফিসিয়াল ইনফারেন্স স্পিড তুলনা টেবিল: SenseVoice-Small (10s অডিওর জন্য 70ms) বনাম Whisper-Small (518ms) বনাম Whisper-Large-V3 (1281ms)

FunAudioLLM পেপার থেকে অফিসিয়াল ইনফারেন্স বেঞ্চমার্ক: SenseVoice-Small 10 সেকেন্ডের অডিও 70ms-এ প্রসেস করে (A800 GPU)। Whisper-Large-V3 নেয় 1,281ms। র ইনফারেন্স লেটেন্সিতে 18 গুণ পার্থক্য।

মডেল লোড সময় মেমোরি ডাউনলোড সাইজ
Parakeet V3 0.77s ~800 MB 465 MB
SenseVoice Small 0.81s ~700 MB 827 MB
Whisper Small 1.03s ~487 MB 600 MB
Whisper Large V3 Turbo 3.18s ~1.6 GB 3 GB

* লোড সময় এবং মেমোরি Apple M4 Pro, 32 GB-তে পরিমাপ করা হয়েছে।

SenseVoice এক সেকেন্ডের কমে লোড হয় এবং Parakeet-এর চেয়ে কম মেমোরি ব্যবহার করে। 8 GB Mac-এ, এটি আপনার অন্যান্য অ্যাপ্লিকেশনের পাশাপাশি আরামে চলে।

SenseVoice কেন দ্রুত: আর্কিটেকচার + রানটাইম

Qwen3-ASR এবং SenseVoice-এর মধ্যে গতির ব্যবধান দুটি স্বতন্ত্র কারণ থেকে আসে।

কারণ 1: মডেল আর্কিটেকচার। Qwen3-ASR অটোরিগ্রেসিভ — এটি টেক্সট টোকেন একে একে তৈরি করে, প্রতিটি আগেরটির উপর নির্ভরশীল। SenseVoice একটি নন-অটোরিগ্রেসিভ (NAR) এনকোডার ব্যবহার করে যা সম্পূর্ণ অডিও সমান্তরালে প্রসেস করে। এই আর্কিটেকচারাল পার্থক্যই SenseVoice-কে মৌলিকভাবে দ্রুত করে, আপনি যেকোনো হার্ডওয়্যারে চালান না কেন।

কারণ 2: রানটাইম। আমাদের Qwen3-ASR ইন্টিগ্রেশন sherpa-onnx ব্যবহার করত, যা CPU-তে চলত। SenseVoice Apple MLX-এর মাধ্যমে চলে, কম্পিউটেশন GPU-তে পাঠায়। Qwen3-ও কি MLX-এ চলতে পারত? হ্যাঁ — কিন্তু এটি এখনও SenseVoice-এর চেয়ে ধীর হতো কারণ অটোরিগ্রেসিভ বটলনেক আর্কিটেকচারে, রানটাইমে নয়।

Qwen3-ASR (পুরনো) SenseVoice (নতুন)
আর্কিটেকচার অটোরিগ্রেসিভ (টোকেন বাই টোকেন) নন-অটোরিগ্রেসিভ (সমান্তরাল)
রানটাইম sherpa-onnx (CPU) Apple MLX (GPU)
27 মিনিট চীনা 224 সেকেন্ড 13.83 সেকেন্ড
সম্মিলিত গতিবৃদ্ধি বেসলাইন 16.2× দ্রুত
কোডবেস 168 MB C ফ্রেমওয়ার্ক + 2,249 লাইন Swift 288 লাইন Swift Actor

* একই 27 মিনিটের চীনা পডকাস্ট, Apple M4 Pro। 16.2× গতিবৃদ্ধি আর্কিটেকচারাল (NAR বনাম AR) এবং রানটাইম (GPU বনাম CPU) উভয় উন্নতি মিলিয়ে।

কোডও সহজ হয়েছে। নতুন SenseVoice ইমপ্লিমেন্টেশন একটি একক 288 লাইনের Swift Actor যা সরাসরি MLX-এর সাথে যোগাযোগ করে, 168 MB C ফ্রেমওয়ার্কের স্থান নিয়েছে। কম কোড, কম বাগ, ছোট অ্যাপ।

পাঁচটি ভাষা, ভালোভাবে

SenseVoice সব করার চেষ্টা করে না। এটি পাঁচটি ভাষা সামলায়:

ভাষা SenseVoice-Small Whisper-Large-V3 বিজয়ী
চীনা (zh-CN) 10.78% CER 12.55% CER SenseVoice (-14%)
ক্যান্টনিজ (yue) 7.09% CER 10.41% CER SenseVoice (-32%)
জাপানি (ja) 11.96% CER 10.34% CER Whisper (সামান্য)
কোরীয় (ko) 8.28% CER 5.59% CER Whisper
ইংরেজি (en) 14.71% WER 9.39% WER Whisper (Parakeet ব্যবহার করুন)

* CommonVoice বেঞ্চমার্ক, CER = ক্যারেক্টার এরর রেট, WER = ওয়ার্ড এরর রেট। কম ভালো। সূত্র: FunAudioLLM পেপার (2024)। SenseVoice-Small ইনফারেন্স লেটেন্সি: 10s অডিওর জন্য 70ms (A800 GPU), Whisper-Large-V3-এর চেয়ে 15 গুণেরও বেশি দ্রুত।

চীনা, ক্যান্টনিজ, ইংরেজি, জাপানি, কোরীয় এবং 25টি অন্যান্য ভাষায় CommonVoice বেঞ্চমার্কে SenseVoice বনাম Whisper নির্ভুলতা তুলনা - WER/CER বার চার্ট

CommonVoice বেঞ্চমার্ক: SenseVoice-Small (হলুদ) বনাম Whisper-Small (নীল) বনাম Whisper-Large-V3 (কমলা)। কম ভালো। সূত্র: FunAudioLLM পেপার

সংখ্যাগুলো একটি সৎ গল্প বলে। SenseVoice চীনা এবং ক্যান্টনিজ নির্ভুলতায় Whisper-কে উল্লেখযোগ্য ব্যবধানে হারায়, যেখানে Whisper জাপানি, কোরীয় এবং ইংরেজির জন্য বেশি নির্ভুল। কিন্তু SenseVoice Whisper-Large-V3-এর চেয়ে 15 গুণেরও বেশি দ্রুত। বেশিরভাগ বাস্তব ব্যবহারে, গতির পার্থক্য নির্ভুলতার কয়েক শতাংশ পয়েন্টের চেয়ে বেশি গুরুত্বপূর্ণ।

ক্যান্টনিজ ফলাফলটি আলাদাভাবে উল্লেখের যোগ্য। Whisper-Small ক্যান্টনিজে 38.97% CER পায় — প্রায় ব্যবহারের অযোগ্য। এমনকি Whisper-Large-V3 শুধু 10.41% অর্জন করে। SenseVoice 7.09% পায়। SenseVoice-এর আগে, Mac-এ স্থানীয়ভাবে ক্যান্টনিজ ট্রান্সক্রাইব করার ভালো কোনো উপায় ছিল না। আপনি যদি ক্যান্টনিজ বলেন, এই মডেলটি আপনার জন্য।

Mac-এর জন্য Whisper Notes-এ SenseVoice কোরীয় ট্রান্সক্রিপশন ফলাফল, একটি ভিডিও থেকে নির্ভুল কোরীয় টেক্সট দেখাচ্ছে

SenseVoice দিয়ে কোরীয় ট্রান্সক্রিপশন: টাইমস্ট্যাম্পড সাবটাইটেল সহ ভিডিও ইম্পোর্ট

বাস্তব পরীক্ষা: 27 মিনিটের চীনা পডকাস্ট

আমরা Thirteen Invitations (十三邀), একটি চীনা সাক্ষাৎকার পডকাস্টের 27 মিনিটের একটি পর্ব, একই M4 Pro-তে SenseVoice এবং Whisper Large V3 Turbo উভয় দিয়ে ট্রান্সক্রাইব করেছি। ElevenLabs Scribe (ক্লাউড) রেফারেন্স হিসেবে ব্যবহৃত হয়েছে। উভয় অন-ডিভাইস মডেল মোটামুটি একই সংখ্যক ত্রুটি করে, তবে ভিন্ন ধরনের:

SenseVoice Whisper Large V3
সময় 13.83s 2 মিনিট 4s
ত্রুটি (5 মিনিটের নমুনা) ~15–20 ~12–15
সবচেয়ে খারাপ ত্রুটি 时差→食堂 (সময়ের পার্থক্য→ক্যান্টিন) 西昌→西藏 (শিচাং শহর→তিব্বত, 4,000 কিমি ভুল)
ত্রুটির ধরন সমোচ্চারিত শব্দ বদল ভৌগোলিক/তথ্যগত ত্রুটি

* ElevenLabs Scribe (ক্লাউড রেফারেন্স, এটিও নিখুঁত নয়)-এর সাথে ম্যানুয়াল তুলনা। উভয় অন-ডিভাইস মডেল "根深蒂固" সঠিকভাবে লিখেছে যেখানে Scribe ভুল করেছে।

তুলনীয় নির্ভুলতা। 9 গুণ দ্রুত। বাস্তব চীনা ট্রান্সক্রিপশনের জন্য, SenseVoice আপনাকে Whisper লোড শেষ করার আগেই ব্যবহারযোগ্য ট্রান্সক্রিপ্ট দেয়।

কোন মডেল কখন ব্যবহার করবেন

Mac-এর জন্য Whisper Notes এখন চারটি স্পিচ মডেল নিয়ে আসে। প্রতিটি ভিন্ন পরিস্থিতির জন্য অপ্টিমাইজ করা:

আপনার প্রয়োজন... এই মডেল ব্যবহার করুন কেন
ইংরেজি বা ইউরোপীয় ভাষা, সর্বোচ্চ গতি Parakeet V3 103× রিয়েলটাইম, সবচেয়ে কম এরর রেট। ডিফল্ট।
চীনা, জাপানি, কোরীয়, বা ক্যান্টনিজ SenseVoice Small 52–118× রিয়েলটাইম। ক্যান্টনিজ সাপোর্ট সহ একমাত্র মডেল।
99+ ভাষার যেকোনোটি (আরবি, থাই, রুশ, ইত্যাদি) Whisper Large V3 Turbo সবচেয়ে বিস্তৃত ভাষা সাপোর্ট। ধীর কিন্তু সর্বজনীন।
কম মেমোরি ব্যবহার (পুরনো Mac) Whisper Small 487 MB মেমোরি। অন্যান্য অ্যাপ চালানো 8 GB Mac-এর জন্য ভালো।
Whisper Notes Mac মডেল পিকার Parakeet V3, SenseVoice Small, Whisper Small, এবং Whisper Large V3 Turbo ডাউনলোড সাইজ এবং ভাষা সাপোর্ট সহ দেখাচ্ছে

সেটিংস → ট্রান্সক্রিপশন মডেল: আপনার ভাষার জন্য সঠিক ইঞ্জিন বেছে নিন

সেটিংসের মডেল পিকার চারটি অপশন ডাউনলোড সাইজ, ভাষার সংখ্যা এবং মেমোরি প্রয়োজনীয়তা সহ দেখায়। SenseVoice প্রথম ব্যবহারে ডাউনলোড হয় (~827 MB) এবং আপনার ডিভাইসে থাকে।

সীমাবদ্ধতা

SenseVoice একটি সর্বজনীন মডেল নয়। এটি যা করতে পারে না:

মাত্র 5টি ভাষা। আপনার যদি থাই, রুশ, আরবি, হিন্দি, বা Whisper সমর্থিত অন্যান্য 90+ ভাষার কোনোটি দরকার হয়, Whisper ব্যবহার করুন।

শুধু Mac। SenseVoice Apple MLX-এর মাধ্যমে চলে, যার জন্য macOS প্রয়োজন। iPhone-এ পাওয়া যায় না। iOS ব্যবহারকারীদের কাছে Parakeet (ইউরোপীয় ভাষার জন্য) এবং Whisper আছে।

শান্ত অডিও সমস্যা। খুব ছোট বা খুব শান্ত অংশে, SenseVoice কখনো কখনো নির্বাচিত ভাষা নির্বিশেষে চীনা আউটপুটে ফিরে যেতে পারে। ভাষা ম্যানুয়ালি সেট করলে ("Auto"-এর বদলে) এটি কমে।

স্ট্রিমিং নেই। Whisper-এর স্ট্রিমিং মোডের বিপরীতে, SenseVoice রেকর্ডিংয়ের পর সম্পূর্ণ অডিও প্রসেস করে। দীর্ঘ ফাইলের জন্য, এটি নীরব পয়েন্টে স্বয়ংক্রিয়ভাবে ভাগ করে এবং ফলাফল ধীরে ধীরে দেখায়।

এগুলো আর্কিটেকচারাল সীমাবদ্ধতা, বাগ নয়। 5টি ভাষায় প্রশিক্ষিত একটি মডেল সেই 5টি ভাষা অত্যন্ত ভালোভাবে করে। Whisper-এর 99+ ভাষা সাপোর্ট ধীর গতি এবং যেকোনো পৃথক ভাষায় উচ্চ এরর রেটের সাথে আসে।

ব্যবহার করে দেখুন

SenseVoice Mac-এর জন্য Whisper Notes v1.4.8 এবং পরবর্তীতে পাওয়া যায়। সেটিংস → ট্রান্সক্রিপশন মডেল → SenseVoice Small (~827 MB) থেকে ডাউনলোড করুন। এর জন্য Apple Silicon Mac (M1 বা পরবর্তী) প্রয়োজন।

আপনি যদি Parakeet V3-তে থাকেন এবং বেশিরভাগ ইংরেজিতে ডিক্টেট করেন, তাহলে পাল্টানোর দরকার নেই। SenseVoice তখনই যখন আপনার চীনা, জাপানি, কোরীয়, বা ক্যান্টনিজ দরকার — এবং আপনি এটি দ্রুত চান।

Mac-এর জন্য ডাউনলোড করুন

সম্পূর্ণ চেঞ্জলগ: whispernotes.app/changelog

প্রশ্ন বা মতামত: mac@whispernotes.app