ক্লাউড ট্রান্সক্রিপশন মৃত। শুধু এখনও জানে না।
গত এক বছরে, আমরা স্পিচ ট্রান্সক্রিপশনে একটি কাঠামোগত পরিবর্তন পর্যবেক্ষণ করেছি। একসময় ক্লাউড সার্ভিস আধিপত্য করত কারণ তারা বড় মডেল চালাতে পারত। সেই সুবিধা আর নেই। আপনার MacBook এখন ৮০৯ মিলিয়ন প্যারামিটারের Whisper Large-v3 Turbo চালাতে পারে। আপনার iPhone সম্পূর্ণ অফলাইনে অপ্টিমাইজড মডেল চালায়। ইঞ্জিনিয়ারিং বাস্তবতা বদলে গেছে, এবং বেশিরভাগ মানুষ এখনও খেয়াল করেনি।
Whisper Notes: প্রফেশনাল-গ্রেড অফলাইন ট্রান্সক্রিপশন
লেটেন্সি সমীকরণ বদলে গেছে
ক্লাউড ট্রান্সক্রিপশনে একটি নির্দিষ্ট লেটেন্সি ফ্লোর আছে: অডিও আপলোড + সার্ভার কিউ + মডেল ইনফারেন্স + রেজাল্ট ডাউনলোড। আদর্শ নেটওয়ার্ক পরিস্থিতিতেও, এটি কয়েক সেকেন্ডের রাউন্ড-ট্রিপ বিলম্ব মানে। নেটওয়ার্ক অস্থির হলে, এটি দশ সেকেন্ড বা তারও বেশি হতে পারে।
লোকাল ইনফারেন্স এই ভ্যারিয়েবলগুলো দূর করে। Apple Silicon-এ Whisper Large-v3 Turbo কথা বলার সাথে সাথে প্রায় রিয়েল-টাইম স্ট্রিমিং ট্রান্সক্রিপশন অর্জন করতে পারে। আপলোডের জন্য অপেক্ষা নেই, নেটওয়ার্ক জিটার নেই, সার্ভার কিউ নেই।
আমাদের পরিমাপিত ডেটা: M1 MacBook Air-এ, Large-v3 Turbo প্লেব্যাক স্পিডের ৯-১০ গুণ গতিতে অডিও প্রসেস করে। ১০ মিনিটের রেকর্ডিং প্রায় ৬৩ সেকেন্ডে ট্রান্সক্রাইব হয়। এটি পিক পারফরম্যান্স নয়, এটি টেকসই, পুনরাবৃত্তিযোগ্য থ্রুপুট।
হার্ডওয়্যার-অ্যাডাপ্টিভ আর্কিটেকচার
সব ডিভাইস একই মডেল চালাতে পারে না। এটি একটি সীমাবদ্ধতা নয়, এটি একটি ইচ্ছাকৃত ইঞ্জিনিয়ারিং ডিজাইন।
Mac (Large-v3 Turbo, ৮০৯ মিলিয়ন প্যারামিটার)
MacBook এবং Mac-এ অবিরত বিদ্যুৎ সরবরাহ, সক্রিয় কুলিং এবং পর্যাপ্ত মেমরি আছে। এটি সম্পূর্ণ Large-v3 Turbo চালানোর অনুমতি দেয়——এই মডেল Large-v3-এর অ্যাকুরেসি বজায় রেখে ইনফারেন্স স্পিড ৪-৫ গুণ বাড়ায়। আপনি ক্লাউড-লেভেল অ্যাকুরেসি পান, লোকাল-লেভেল স্পিডে।
iPhone (অপ্টিমাইজড Whisper ভ্যারিয়েন্ট)
মোবাইল চিপ পাওয়ার এবং তাপীয় সীমাবদ্ধতার মধ্যে কাজ করে। আমরা Neural Engine-এর জন্য অপ্টিমাইজড Whisper ভ্যারিয়েন্ট ডেপ্লয় করি, পাওয়ার বাজেটের মধ্যে চমৎকার অ্যাকুরেসি বজায় রাখে। ট্রেড-অফ স্পষ্ট: Large-v3 Turbo-এর তুলনায় মডেল সাইজ ছোট, কিন্তু নেটওয়ার্ক লেটেন্সি ছাড়াই ফোনেও সঠিকভাবে কাজ করে।
এই হার্ডওয়্যার-অ্যাডাপ্টিভ পদ্ধতির মানে হল প্রতিটি ডিভাইস সেই মডেল চালায় যা এটি দক্ষতার সাথে চালাতে পারে। "সব জায়গায় একই মডেল" নয়, "প্রতিটি ডিভাইসের জন্য উপযুক্ত মডেল"।
সম্পূর্ণ অফলাইন: অডিও ইমপোর্ট করুন এবং সরাসরি ট্রান্সক্রাইব করুন
প্রাইভেসি একটি ফিচার নয়——এটি আর্কিটেকচার
বেশিরভাগ ক্লাউড ট্রান্সক্রিপশন সার্ভিসের প্রাইভেসি পলিসি আছে যা আপনার ডেটা সুরক্ষিত রাখার প্রতিশ্রুতি দেয়। কিন্তু আর্কিটেকচার প্রাইভেসি পলিসিকে অপ্রাসঙ্গিক করে তোলে।
যখন অডিও নেটওয়ার্কের মধ্য দিয়ে যায়, আপনি এর উপর নিয়ন্ত্রণ হারান। এটি লগ করা যেতে পারে, ক্যাশ করা যেতে পারে, ট্রেনিং-এ ব্যবহার করা যেতে পারে, সাবপোইনা করা যেতে পারে। সবচেয়ে ভালো উদ্দেশ্যের পলিসি থাকলেও, সার্ভারে ডেটার অস্তিত্ব নিজেই একটি অ্যাটাক সারফেস।
লোকাল প্রসেসিং এই অ্যাটাক সারফেস দূর করে। রেকর্ডিং কখনো ডিভাইস ছেড়ে যায় না। কোনো ট্রান্সমিশন লগ নেই, কোনো সার্ভার-সাইড স্টোরেজ নেই, থার্ড-পার্টি অ্যাক্সেসের কোনো সম্ভাবনা নেই। এটি আমাদের উপর ভরসা করার বিষয় নয়, এটি ভরসার প্রয়োজনীয়তা দূর করার বিষয়।
বাস্তব প্রভাব: মেডিকেল প্রফেশনাল, আইনজীবী, সাংবাদিক——যারা সংবেদনশীল কথোপকথন নিয়ে কাজ করেন——তাদের আর ট্রান্সক্রিপশনের সুবিধা এবং গোপনীয়তার মধ্যে ট্রেড-অফ বিবেচনা করতে হবে না। অফলাইন আর্কিটেকচার দুটোই সম্ভব করে তোলে।
কখন ক্লাউড এখনও অর্থপূর্ণ
লোকাল-ফার্স্ট সম্পর্কে আমাদের অবস্থান ইঞ্জিনিয়ারিং-এর উপর ভিত্তি করে, ধর্মীয় বিশ্বাস নয়। এমন পরিস্থিতি আছে যেখানে ক্লাউড সলিউশন এখনও অর্থপূর্ণ:
- মাল্টি-পার্সন রিয়েল-টাইম কোলাবোরেশন: যদি ১০ জনকে একই সময়ে রিয়েল-টাইম ট্রান্সক্রিপশন দেখতে হয়, শেয়ার্ড সার্ভার একটি যুক্তিসঙ্গত আর্কিটেকচার চয়েস।
- সীমিত স্টোরেজের পুরানো ডিভাইস: যদি ডিভাইস মডেল ফাইল ধারণ করতে না পারে, ক্লাউড একটি কার্যকর বিকল্প।
- বিশেষায়িত ভাষা মডেল: অত্যন্ত বিরল ভাষা বা উপভাষার জন্য ক্লাউড-একচেটিয়া মডেল থাকতে পারে।
কিন্তু ব্যক্তিগত রেকর্ডিং, মিটিং নোট, ভয়েস মেমো, ইন্টারভিউ——বেশিরভাগ মানুষের বেশিরভাগ ইউজ কেসের জন্য——লোকাল প্রসেসিং লেটেন্সি, প্রাইভেসি এবং নির্ভরযোগ্যতায় এগিয়ে।
অ্যাকুরেসির সত্য
একটি সাধারণ ভুল ধারণা: বড় ক্লাউড মডেল মানে উচ্চতর অ্যাকুরেসি। ২০২২ সালে এটি সত্য ছিল। এখন আর নয়।
Whisper Large-v3 Turbo একটি ডিস্টিল্ড মডেল——সম্পূর্ণ Large-v3 থেকে শিখে, কম্পিউটেশনাল রিকোয়ারমেন্ট কমিয়ে অ্যাকুরেসি বজায় রাখে। স্ট্যান্ডার্ড বেঞ্চমার্কে, এটি সম্পূর্ণ মডেলের সমান ওয়ার্ড এরর রেট অর্জন করে যখন ইনফারেন্স স্পিড ৪-৫ গুণ দ্রুত।
আরও গুরুত্বপূর্ণ, Whisper-এর ট্রেনিং ডেটা (৬৮০,০০০ ঘণ্টার মাল্টিলিংগুয়াল স্পিচ) নিজেই বিশাল। দৈনন্দিন রেকর্ডিং——মিটিং, লেকচার, ভয়েস মেমো——সম্পূর্ণরূপে এর ক্ষমতার মধ্যে। প্রাচীন ভাষা বা অত্যন্ত বিরল উপভাষার মতো অত্যন্ত বিশেষায়িত কন্টেন্ট ট্রান্সক্রাইব না করলে, লোকাল মডেলের অ্যাকুরেসি প্রফেশনাল ব্যবহারের জন্য যথেষ্ট।
অর্থনৈতিক মডেল তুলনা
সাবস্ক্রিপশন-ভিত্তিক ক্লাউড ট্রান্সক্রিপশনে চলমান খরচ আছে——মিনিট প্রতি চার্জ বা মাসিক ফি। এটি মাঝে মাঝে ব্যবহারকারীদের জন্য সস্তা মনে হয়, কিন্তু ভারী ব্যবহারকারীদের জন্য দ্রুত জমে যায়।
| সার্ভিস | মূল্য মডেল | ২ বছরের খরচ |
|---|---|---|
| Otter.ai | $16.99/মাস | $407 |
| Rev | $0.25/মিনিট | পরিবর্তনশীল |
| Whisper Notes | $6.99 একবারের | $6.99 |
লোকাল প্রসেসিং-এর অর্থনীতি ভিন্ন: একবারের কেনাকাটা (আমাদের দাম $6.99), তারপর মার্জিনাল খরচ প্রায় শূন্য। ১০ মিনিটের রেকর্ডিং এবং ১০ ঘণ্টার রেকর্ডিং-এর অতিরিক্ত খরচ একই: শূন্য।
এটি "সস্তা" হওয়ার বিষয় নয়, এটি খরচ মডেলের পূর্বাভাসযোগ্যতা সম্পর্কে। যখন একটি টুল ব্যবহার অনুযায়ী চার্জ করে না, আপনি আরও স্বাধীনভাবে ব্যবহার করতে পারেন। দীর্ঘ মিটিং রেকর্ড করুন, আরও ঘন ঘন ভয়েস মেমো রেকর্ড করুন, "এটাতে টাকা খরচ করার মূল্য আছে কি না" এই অভ্যন্তরীণ সংলাপ নেই।
ব্যবহারিক ফিচার
আমরা যে প্রতিটি ফিচার তৈরি করি তা একটি পর্যবেক্ষিত সমস্যার প্রতিক্রিয়া:
লক স্ক্রিন উইজেট
আমরা পর্যবেক্ষণ করেছি যে সবচেয়ে মূল্যবান রেকর্ডিং প্রায়ই হঠাৎ প্রয়োজন হয়——একটি অনুপ্রেরণা, একটি আকস্মিক কথোপকথন, একটি অপ্রত্যাশিত গুরুত্বপূর্ণ কল। ফোন আনলক করা, অ্যাপ খুঁজে বের করা, রেকর্ডিং ট্যাপ করা——প্রতিটি ধাপ সেই মুহূর্তটি হারানোর সুযোগ। লক স্ক্রিন থেকে ওয়ান-ট্যাপ রেকর্ডিং এই বাধা দূর করে।
লক স্ক্রিন থেকে সরাসরি রেকর্ড করুন, অনুপ্রেরণা মিস করবেন না
ইনিশিয়াল প্রম্পট (কাস্টম ভোকাবুলারি)
Whisper সাধারণ কন্টেন্টে চমৎকার পারফর্ম করে, কিন্তু প্রতিটি ক্ষেত্রে এমন পরিভাষা আছে যা এটি চিনতে পারে না। মেডিকেল টার্মিনোলজি, লিগ্যাল টার্ম, ইন্টার্নাল নাম, টেকনিক্যাল অ্যাব্রিভিয়েশন। ইনিশিয়াল প্রম্পট আপনাকে আগে থেকে মডেলকে বলতে দেয় "এই শব্দগুলো আসবে, সঠিকভাবে চিনুন"।
বিশেষায়িত পরিভাষা সেট করুন রিকগনিশন অ্যাকুরেসি উন্নত করতে
টাইমস্ট্যাম্প সহ প্যারাগ্রাফ
দীর্ঘ রেকর্ডিং-এর মূল্য প্রায়ই নির্দিষ্ট সেগমেন্টে থাকে। টাইমস্ট্যাম্প ছাড়া, সেই একটি বাক্য খুঁজে পেতে পুরো রেকর্ডিং শুনতে হবে। ক্লিকযোগ্য টাইমস্ট্যাম্প থাকলে, সংশ্লিষ্ট অংশে সরাসরি জাম্প করতে পারবেন।
টাইমস্ট্যাম্প দিয়ে সঠিক অবস্থান খুঁজুন, দ্রুত জাম্প করুন
বাল্ক এক্সপোর্ট
গবেষক, সাংবাদিক, আইনজীবীরা প্রায়ই একসাথে ডজন ডজন রেকর্ডিং প্রসেস করেন। একটি একটি করে এক্সপোর্ট করা একটি অগ্রহণযোগ্য ওয়ার্কফ্লো। বাল্ক অপারেশন এটিকে ব্যবহারিক করে তোলে।
বাল্ক সিলেক্ট করুন, একবারে এক্সপোর্ট করুন
মাল্টিলিংগুয়াল: ৮০+ ভাষা
Whisper-এর ট্রেনিং ডেটা ৯৯টি ভাষা কভার করে, কিন্তু কভারেজের গভীরতা ভিন্ন। ইংরেজি, চীনা, স্প্যানিশ, জার্মান, জাপানি এবং অন্যান্য প্রধান ভাষায় প্রচুর ট্রেনিং ডেটা আছে এবং অ্যাকুরেসি খুব বেশি। মাইনর ভাষার পারফরম্যান্স কিছুটা কম হতে পারে, কিন্তু সাধারণত ব্যবহারযোগ্য।
সৎ সীমাবদ্ধতা: কোড-সুইচিং (রেকর্ডিং-এ একাধিক ভাষা মেশানো) এখনও চ্যালেঞ্জিং। একটি বাক্যে ইংরেজি এবং বাংলা স্যুইচ করলে, মডেল সুইচিং পয়েন্টে ভুল করতে পারে। এটি বর্তমান স্পিচ রিকগনিশন প্রযুক্তির একটি সাধারণ সীমাবদ্ধতা, শুধু আমাদের নয়।
প্রযুক্তিগত বিবরণ
Device requirements: iPhone 12+ (A14 চিপ) বা M-series চিপ সহ Mac।
Models: Parakeet V3 (103x রিয়েলটাইম, ইংরেজির জন্য 6.32% WER)। SenseVoice Small (চীনা, জাপানি, কোরীয়, ক্যান্টোনিজের জন্য 52x রিয়েলটাইম)। Whisper Large V3 Turbo (100+ ভাষা)। তিনটিই Mac-এ স্থানীয়ভাবে চলে।
Speed: Parakeet V3: M4 Pro-তে 35 মিনিট অডিও 20 সেকেন্ডে। SenseVoice: 27 মিনিট চীনা পডকাস্ট 14 সেকেন্ডে। Whisper Turbo: 35 মিনিট ~3 মিনিটে।
AI Editing: ডিভাইসে Gemma 4 বিরাম চিহ্ন সংশোধন করে, ফিলার শব্দ (উম, আহ) সরায়, শিরোনাম তৈরি করে এবং আপনার ট্রান্সক্রিপ্ট সম্পর্কে প্রশ্নের উত্তর দেয়।
Price: একবারের $6.99। Mac-এ বিনামূল্যে ট্রায়াল। কোনো সাবস্ক্রিপশন নেই কারণ আমরা সার্ভার চালাই না।
প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী
ইন্টারনেট সংযোগ ছাড়া কি ট্রান্সক্রিপশন করা যায়?
হ্যাঁ। Whisper Notes হল অফলাইন ট্রান্সক্রিপশন সফটওয়্যার যা সম্পূর্ণরূপে আপনার ডিভাইসে চলে। তিনটি AI মডেল — Parakeet V3, SenseVoice এবং Whisper — আপনার Mac-এর Neural Engine বা iPhone-এর A-series চিপ ব্যবহার করে স্থানীয়ভাবে অডিও প্রসেস করে। কোনো ডেটা আপলোড হয় না, কোনো সার্ভারের সাথে যোগাযোগ হয় না। আপনি এয়ারপ্লেন মোড চালু করে নিজে পরীক্ষা করতে পারেন।
OpenAI Whisper কি অফলাইনে কাজ করে?
হ্যাঁ। OpenAI Whisper-কে ওপেন-সোর্স মডেল হিসেবে প্রকাশ করেছে, যার মানে এটি আপনার হার্ডওয়্যারে স্থানীয়ভাবে চলতে পারে। Whisper Notes CoreML/Metal-এর মাধ্যমে Apple Silicon-এ চালানোর জন্য Whisper Large V3 Turbo প্যাকেজ করে — Python নেই, কমান্ড লাইন নেই, ইন্টারনেট নেই। ১০০+ ভাষায় অফলাইন স্পিচ রিকগনিশন সমর্থন করে।
Whisper Notes কি Windows বা Android-এর জন্য উপলব্ধ?
এখনো না। Whisper Notes বর্তমানে Mac (M-series) এবং iPhone (12+) সমর্থন করে। Windows-এর জন্য, বিকল্পগুলোর মধ্যে faster-whisper (কমান্ড-লাইন) বা Buzz (GUI র্যাপার) আছে। আমরা ভবিষ্যতে অন্যান্য প্ল্যাটফর্ম সমর্থন করতে পারি, কিন্তু Apple Silicon-এর Neural Engine Mac ব্যবহারকারীদের সেরা লোকাল স্পিচ টু টেক্সট অভিজ্ঞতা দেয়।
কোনো বিনামূল্যে অফলাইন ট্রান্সক্রিপশন অ্যাপ আছে?
Whisper Notes Mac-এ বিনামূল্যে ট্রায়াল অফার করে — DMG ডাউনলোড করুন এবং সময়সীমা ছাড়াই চেষ্টা করুন। পূর্ণ কেনাকাটা একবারের $6.99 (কোনো সাবস্ক্রিপশন নেই)। তুলনার জন্য, Otter.ai-এর মতো ক্লাউড ট্রান্সক্রিপশন সেবা মাসে $10-20 খরচ করে। তিন বছরে, এটি $360-720 বনাম একবারের $6.99।
Whisper Notes কিভাবে MacWhisper বা faster-whisper-এর সাথে তুলনা করে?
MacWhisper শুধু Mac-এর জন্য Whisper ফ্রন্টএন্ড। faster-whisper একটি কমান্ড-লাইন টুল। Whisper Notes-এ তিনটি মডেল আছে (Parakeet V3, SenseVoice, Whisper), Mac এবং iPhone উভয় সমর্থন করে, সিস্টেম-ওয়াইড Fn-কি ডিকটেশন, লক স্ক্রিন উইজেট, ডিভাইসে AI এডিটিং এবং বাল্ক এক্সপোর্ট — সব একবারের $6.99 কেনাকাটায়।