SenseVoice: Mac-এ চীনা, জাপানি ও কোরীয় ট্রান্সক্রিপশন 52× দ্রুত

সারসংক্ষেপ — তিনটি Mac মডেলের তুলনা

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
5 মিনিট ইংরেজি	2.91s (103×)	5.8s (52×)	20.92s (14.3×)
27 মিনিট চীনা	10.10s (161×)	13.83s (118×)	2 মিনিট 4s (13.1×)
ভাষা	25 (ইউরোপীয়)	5 (zh, en, ja, ko, yue)	99+
ডাউনলোড	465 MB	827 MB	1.5 GB
মেমোরি	~800 MB	~700 MB	~1.6 GB
সেরা ব্যবহার	ইংরেজি & ইউরোপীয় ভাষা	চীনা, জাপানি, কোরীয়, ক্যান্টনিজ	বাকি সব (99+ ভাষা)

* গতি পরীক্ষা Apple M4 Pro, 32 GB-তে। 5 মিনিটের ইংরেজি পডকাস্ট এবং 27 মিনিটের চীনা পডকাস্ট। রিয়েলটাইম ফ্যাক্টর = অডিও সময়কাল ÷ প্রসেসিং সময় (বেশি = দ্রুত)। SenseVoice শুধুমাত্র macOS-এর জন্য। iOS Parakeet (ANE-এর মাধ্যমে) এবং Whisper ব্যবহার করে।

সংস্করণ 1.4.8 থেকে শুরু করে, Mac-এর জন্য Whisper Notes চীনা, জাপানি, কোরীয় এবং ক্যান্টনিজ ট্রান্সক্রিপশনের জন্য নিবেদিত ইঞ্জিন হিসেবে SenseVoice Small নিয়ে আসে। এটি Qwen3-ASR-এর স্থান নেয় এবং CPU-এর পরিবর্তে MLX-এর মাধ্যমে Apple-এর GPU-তে চলে — 27 মিনিটের চীনা পডকাস্ট 3 মিনিট 44 সেকেন্ডের বদলে 13.83 সেকেন্ডে প্রসেস করে।

আমরা কেন Qwen3-ASR বদলালাম

Qwen3-ASR একটি শক্তিশালী মডেল ছিল। এটি 30টি ভাষা এবং 22টি চীনা উপভাষা সমর্থন করত, এবং এর চীনা নির্ভুলতা প্রায় সর্বোচ্চ মানের ছিল। কিন্তু অডিও যত দীর্ঘ হতো তত বাড়তে থাকা একটি সমস্যা ছিল: গতি।

Qwen3 অটোরিগ্রেসিভ আর্কিটেকচার ব্যবহার করত — Whisper-এর মতো একই পদ্ধতি, ফ্রেম বাই ফ্রেম অডিও প্রসেস করা, কখনো এগিয়ে যায় না। 27 মিনিটের চীনা পডকাস্টে এটি 73 সেকেন্ড নিত। ব্যবহারযোগ্য, কিন্তু Parakeet V3 ইংরেজির জন্য যে তাৎক্ষণিক ফলাফল দেয় সেই অভিজ্ঞতা থেকে দূরে।

গভীর সমস্যাটি ছিল আমাদের অবকাঠামোতে। আমাদের Qwen3 ইন্টিগ্রেশন sherpa-onnx ব্যবহার করত, একটি C লাইব্রেরি যার 2,249 লাইনের Swift র‍্যাপার সবকিছু CPU কোরের মাধ্যমে রুট করত। আপনার Mac-এর CPU সব কাজ করার সময় GPU অলস বসে থাকত।

SenseVoice দুটি সমস্যাই সমাধান করেছে। গতির জন্য নন-অটোরিগ্রেসিভ আর্কিটেকচার। GPU ত্বরণের জন্য Apple MLX। ফলাফল: একই হার্ডওয়্যারে 16.2 গুণ গতি বৃদ্ধি, কোডবেস 2,249 লাইন থেকে কমে 288 হয়েছে।

বেঞ্চমার্ক

তিনটি মডেলই একই Apple M4 Pro-তে, একই অডিও ফাইল, একই শর্তে চালানো হয়েছে। কোনো ক্লাউড নেই। কোনো ইন্টারনেট নেই। শুধু সিলিকন।

মডেল	5 মিনিট ইংরেজি	27 মিনিট চীনা	গতি (RTFx)
Parakeet V3	2.91s	10.10s	103–161×
SenseVoice Small	5.8s	13.83s	52–118×
Whisper Large V3 Turbo	20.92s	2 মিনিট 4s	13–14×
Qwen3-ASR (সরানো হয়েছে)	—	73s	4.7×

SenseVoice Parakeet V3-এর প্রায় অর্ধেক গতির — তবুও অসাধারণ দ্রুত। 27 মিনিটের একটি পডকাস্ট 14 সেকেন্ডের কমে শেষ হয়। আপনি ট্রান্সক্রাইব চাপেন, এক নিশ্বাস অপেক্ষা করেন, এবং টেক্সট তৈরি।

এটিকে Whisper-এর 2 মিনিট 4 সেকেন্ড বা পুরনো Qwen3-এর 73 সেকেন্ডের সাথে তুলনা করুন। আর্কিটেকচার প্যারামিটার সংখ্যার চেয়ে বেশি গুরুত্বপূর্ণ।

FunAudioLLM পেপার থেকে অফিসিয়াল ইনফারেন্স স্পিড তুলনা টেবিল: SenseVoice-Small (10s অডিওর জন্য 70ms) বনাম Whisper-Small (518ms) বনাম Whisper-Large-V3 (1281ms)

FunAudioLLM পেপার থেকে অফিসিয়াল ইনফারেন্স বেঞ্চমার্ক: SenseVoice-Small 10 সেকেন্ডের অডিও 70ms-এ প্রসেস করে (A800 GPU)। Whisper-Large-V3 নেয় 1,281ms। র ইনফারেন্স লেটেন্সিতে 18 গুণ পার্থক্য।

মডেল	লোড সময়	মেমোরি	ডাউনলোড সাইজ
Parakeet V3	0.77s	~800 MB	465 MB
SenseVoice Small	0.81s	~700 MB	827 MB
Whisper Small	1.03s	~487 MB	600 MB
Whisper Large V3 Turbo	3.18s	~1.6 GB	3 GB

* লোড সময় এবং মেমোরি Apple M4 Pro, 32 GB-তে পরিমাপ করা হয়েছে।

SenseVoice এক সেকেন্ডের কমে লোড হয় এবং Parakeet-এর চেয়ে কম মেমোরি ব্যবহার করে। 8 GB Mac-এ, এটি আপনার অন্যান্য অ্যাপ্লিকেশনের পাশাপাশি আরামে চলে।

SenseVoice কেন দ্রুত: আর্কিটেকচার + রানটাইম

Qwen3-ASR এবং SenseVoice-এর মধ্যে গতির ব্যবধান দুটি স্বতন্ত্র কারণ থেকে আসে।

কারণ 1: মডেল আর্কিটেকচার। Qwen3-ASR অটোরিগ্রেসিভ — এটি টেক্সট টোকেন একে একে তৈরি করে, প্রতিটি আগেরটির উপর নির্ভরশীল। SenseVoice একটি নন-অটোরিগ্রেসিভ (NAR) এনকোডার ব্যবহার করে যা সম্পূর্ণ অডিও সমান্তরালে প্রসেস করে। এই আর্কিটেকচারাল পার্থক্যই SenseVoice-কে মৌলিকভাবে দ্রুত করে, আপনি যেকোনো হার্ডওয়্যারে চালান না কেন।

কারণ 2: রানটাইম। আমাদের Qwen3-ASR ইন্টিগ্রেশন sherpa-onnx ব্যবহার করত, যা CPU-তে চলত। SenseVoice Apple MLX-এর মাধ্যমে চলে, কম্পিউটেশন GPU-তে পাঠায়। Qwen3-ও কি MLX-এ চলতে পারত? হ্যাঁ — কিন্তু এটি এখনও SenseVoice-এর চেয়ে ধীর হতো কারণ অটোরিগ্রেসিভ বটলনেক আর্কিটেকচারে, রানটাইমে নয়।

	Qwen3-ASR (পুরনো)	SenseVoice (নতুন)
আর্কিটেকচার	অটোরিগ্রেসিভ (টোকেন বাই টোকেন)	নন-অটোরিগ্রেসিভ (সমান্তরাল)
রানটাইম	sherpa-onnx (CPU)	Apple MLX (GPU)
27 মিনিট চীনা	224 সেকেন্ড	13.83 সেকেন্ড
সম্মিলিত গতিবৃদ্ধি	বেসলাইন	16.2× দ্রুত
কোডবেস	168 MB C ফ্রেমওয়ার্ক + 2,249 লাইন Swift	288 লাইন Swift Actor

* একই 27 মিনিটের চীনা পডকাস্ট, Apple M4 Pro। 16.2× গতিবৃদ্ধি আর্কিটেকচারাল (NAR বনাম AR) এবং রানটাইম (GPU বনাম CPU) উভয় উন্নতি মিলিয়ে।

কোডও সহজ হয়েছে। নতুন SenseVoice ইমপ্লিমেন্টেশন একটি একক 288 লাইনের Swift Actor যা সরাসরি MLX-এর সাথে যোগাযোগ করে, 168 MB C ফ্রেমওয়ার্কের স্থান নিয়েছে। কম কোড, কম বাগ, ছোট অ্যাপ।

পাঁচটি ভাষা, ভালোভাবে

SenseVoice সব করার চেষ্টা করে না। এটি পাঁচটি ভাষা সামলায়:

ভাষা	SenseVoice-Small	Whisper-Large-V3	বিজয়ী
চীনা (zh-CN)	10.78% CER	12.55% CER	SenseVoice (-14%)
ক্যান্টনিজ (yue)	7.09% CER	10.41% CER	SenseVoice (-32%)
জাপানি (ja)	11.96% CER	10.34% CER	Whisper (সামান্য)
কোরীয় (ko)	8.28% CER	5.59% CER	Whisper
ইংরেজি (en)	14.71% WER	9.39% WER	Whisper (Parakeet ব্যবহার করুন)

* CommonVoice বেঞ্চমার্ক, CER = ক্যারেক্টার এরর রেট, WER = ওয়ার্ড এরর রেট। কম ভালো। সূত্র: FunAudioLLM পেপার (2024)। SenseVoice-Small ইনফারেন্স লেটেন্সি: 10s অডিওর জন্য 70ms (A800 GPU), Whisper-Large-V3-এর চেয়ে 15 গুণেরও বেশি দ্রুত।

চীনা, ক্যান্টনিজ, ইংরেজি, জাপানি, কোরীয় এবং 25টি অন্যান্য ভাষায় CommonVoice বেঞ্চমার্কে SenseVoice বনাম Whisper নির্ভুলতা তুলনা - WER/CER বার চার্ট

CommonVoice বেঞ্চমার্ক: SenseVoice-Small (হলুদ) বনাম Whisper-Small (নীল) বনাম Whisper-Large-V3 (কমলা)। কম ভালো। সূত্র: FunAudioLLM পেপার

সংখ্যাগুলো একটি সৎ গল্প বলে। SenseVoice চীনা এবং ক্যান্টনিজ নির্ভুলতায় Whisper-কে উল্লেখযোগ্য ব্যবধানে হারায়, যেখানে Whisper জাপানি, কোরীয় এবং ইংরেজির জন্য বেশি নির্ভুল। কিন্তু SenseVoice Whisper-Large-V3-এর চেয়ে 15 গুণেরও বেশি দ্রুত। বেশিরভাগ বাস্তব ব্যবহারে, গতির পার্থক্য নির্ভুলতার কয়েক শতাংশ পয়েন্টের চেয়ে বেশি গুরুত্বপূর্ণ।

ক্যান্টনিজ ফলাফলটি আলাদাভাবে উল্লেখের যোগ্য। Whisper-Small ক্যান্টনিজে 38.97% CER পায় — প্রায় ব্যবহারের অযোগ্য। এমনকি Whisper-Large-V3 শুধু 10.41% অর্জন করে। SenseVoice 7.09% পায়। SenseVoice-এর আগে, Mac-এ স্থানীয়ভাবে ক্যান্টনিজ ট্রান্সক্রাইব করার ভালো কোনো উপায় ছিল না। আপনি যদি ক্যান্টনিজ বলেন, এই মডেলটি আপনার জন্য।

Mac-এর জন্য Whisper Notes-এ SenseVoice কোরীয় ট্রান্সক্রিপশন ফলাফল, একটি ভিডিও থেকে নির্ভুল কোরীয় টেক্সট দেখাচ্ছে

SenseVoice দিয়ে কোরীয় ট্রান্সক্রিপশন: টাইমস্ট্যাম্পড সাবটাইটেল সহ ভিডিও ইম্পোর্ট

বাস্তব পরীক্ষা: 27 মিনিটের চীনা পডকাস্ট

আমরা Thirteen Invitations (十三邀), একটি চীনা সাক্ষাৎকার পডকাস্টের 27 মিনিটের একটি পর্ব, একই M4 Pro-তে SenseVoice এবং Whisper Large V3 Turbo উভয় দিয়ে ট্রান্সক্রাইব করেছি। ElevenLabs Scribe (ক্লাউড) রেফারেন্স হিসেবে ব্যবহৃত হয়েছে। উভয় অন-ডিভাইস মডেল মোটামুটি একই সংখ্যক ত্রুটি করে, তবে ভিন্ন ধরনের:

	SenseVoice	Whisper Large V3
সময়	13.83s	2 মিনিট 4s
ত্রুটি (5 মিনিটের নমুনা)	~15–20	~12–15
সবচেয়ে খারাপ ত্রুটি	时差→食堂 (সময়ের পার্থক্য→ক্যান্টিন)	西昌→西藏 (শিচাং শহর→তিব্বত, 4,000 কিমি ভুল)
ত্রুটির ধরন	সমোচ্চারিত শব্দ বদল	ভৌগোলিক/তথ্যগত ত্রুটি

* ElevenLabs Scribe (ক্লাউড রেফারেন্স, এটিও নিখুঁত নয়)-এর সাথে ম্যানুয়াল তুলনা। উভয় অন-ডিভাইস মডেল "根深蒂固" সঠিকভাবে লিখেছে যেখানে Scribe ভুল করেছে।

তুলনীয় নির্ভুলতা। 9 গুণ দ্রুত। বাস্তব চীনা ট্রান্সক্রিপশনের জন্য, SenseVoice আপনাকে Whisper লোড শেষ করার আগেই ব্যবহারযোগ্য ট্রান্সক্রিপ্ট দেয়।

কোন মডেল কখন ব্যবহার করবেন

Mac-এর জন্য Whisper Notes এখন চারটি স্পিচ মডেল নিয়ে আসে। প্রতিটি ভিন্ন পরিস্থিতির জন্য অপ্টিমাইজ করা:

আপনার প্রয়োজন...	এই মডেল ব্যবহার করুন	কেন
ইংরেজি বা ইউরোপীয় ভাষা, সর্বোচ্চ গতি	Parakeet V3	103× রিয়েলটাইম, সবচেয়ে কম এরর রেট। ডিফল্ট।
চীনা, জাপানি, কোরীয়, বা ক্যান্টনিজ	SenseVoice Small	52–118× রিয়েলটাইম। ক্যান্টনিজ সাপোর্ট সহ একমাত্র মডেল।
99+ ভাষার যেকোনোটি (আরবি, থাই, রুশ, ইত্যাদি)	Whisper Large V3 Turbo	সবচেয়ে বিস্তৃত ভাষা সাপোর্ট। ধীর কিন্তু সর্বজনীন।
কম মেমোরি ব্যবহার (পুরনো Mac)	Whisper Small	487 MB মেমোরি। অন্যান্য অ্যাপ চালানো 8 GB Mac-এর জন্য ভালো।

Whisper Notes Mac মডেল পিকার Parakeet V3, SenseVoice Small, Whisper Small, এবং Whisper Large V3 Turbo ডাউনলোড সাইজ এবং ভাষা সাপোর্ট সহ দেখাচ্ছে

সেটিংস → ট্রান্সক্রিপশন মডেল: আপনার ভাষার জন্য সঠিক ইঞ্জিন বেছে নিন

সেটিংসের মডেল পিকার চারটি অপশন ডাউনলোড সাইজ, ভাষার সংখ্যা এবং মেমোরি প্রয়োজনীয়তা সহ দেখায়। SenseVoice প্রথম ব্যবহারে ডাউনলোড হয় (~827 MB) এবং আপনার ডিভাইসে থাকে।

সীমাবদ্ধতা

SenseVoice একটি সর্বজনীন মডেল নয়। এটি যা করতে পারে না:

• মাত্র 5টি ভাষা। আপনার যদি থাই, রুশ, আরবি, হিন্দি, বা Whisper সমর্থিত অন্যান্য 90+ ভাষার কোনোটি দরকার হয়, Whisper ব্যবহার করুন।

• শুধু Mac। SenseVoice Apple MLX-এর মাধ্যমে চলে, যার জন্য macOS প্রয়োজন। iPhone-এ পাওয়া যায় না। iOS ব্যবহারকারীদের কাছে Parakeet (ইউরোপীয় ভাষার জন্য) এবং Whisper আছে।

• শান্ত অডিও সমস্যা। খুব ছোট বা খুব শান্ত অংশে, SenseVoice কখনো কখনো নির্বাচিত ভাষা নির্বিশেষে চীনা আউটপুটে ফিরে যেতে পারে। ভাষা ম্যানুয়ালি সেট করলে ("Auto"-এর বদলে) এটি কমে।

• স্ট্রিমিং নেই। Whisper-এর স্ট্রিমিং মোডের বিপরীতে, SenseVoice রেকর্ডিংয়ের পর সম্পূর্ণ অডিও প্রসেস করে। দীর্ঘ ফাইলের জন্য, এটি নীরব পয়েন্টে স্বয়ংক্রিয়ভাবে ভাগ করে এবং ফলাফল ধীরে ধীরে দেখায়।

এগুলো আর্কিটেকচারাল সীমাবদ্ধতা, বাগ নয়। 5টি ভাষায় প্রশিক্ষিত একটি মডেল সেই 5টি ভাষা অত্যন্ত ভালোভাবে করে। Whisper-এর 99+ ভাষা সাপোর্ট ধীর গতি এবং যেকোনো পৃথক ভাষায় উচ্চ এরর রেটের সাথে আসে।

ব্যবহার করে দেখুন

SenseVoice Mac-এর জন্য Whisper Notes v1.4.8 এবং পরবর্তীতে পাওয়া যায়। সেটিংস → ট্রান্সক্রিপশন মডেল → SenseVoice Small (~827 MB) থেকে ডাউনলোড করুন। এর জন্য Apple Silicon Mac (M1 বা পরবর্তী) প্রয়োজন।

আপনি যদি Parakeet V3-তে থাকেন এবং বেশিরভাগ ইংরেজিতে ডিক্টেট করেন, তাহলে পাল্টানোর দরকার নেই। SenseVoice তখনই যখন আপনার চীনা, জাপানি, কোরীয়, বা ক্যান্টনিজ দরকার — এবং আপনি এটি দ্রুত চান।

Mac-এর জন্য ডাউনলোড করুন

সম্পূর্ণ চেঞ্জলগ: whispernotes.app/changelog

প্রশ্ন বা মতামত: mac@whispernotes.app