অফলাইন Whisper গাইড: কেন লোকাল AI ক্লাউডকে ছাড়িয়ে গেছে

২৯ মে, ২০২৫
·
12 min read
·The Whisper Notes Team

ক্লাউড ট্রান্সক্রিপশন মৃত। শুধু এখনও জানে না।

গত এক বছরে, আমরা স্পিচ ট্রান্সক্রিপশনে একটি কাঠামোগত পরিবর্তন পর্যবেক্ষণ করেছি। একসময় ক্লাউড সার্ভিস আধিপত্য করত কারণ তারা বড় মডেল চালাতে পারত। সেই সুবিধা আর নেই। আপনার MacBook এখন ৮০৯ মিলিয়ন প্যারামিটারের Whisper Large-v3 Turbo চালাতে পারে। আপনার iPhone সম্পূর্ণ অফলাইনে অপ্টিমাইজড মডেল চালায়। ইঞ্জিনিয়ারিং বাস্তবতা বদলে গেছে, এবং বেশিরভাগ মানুষ এখনও খেয়াল করেনি।

Whisper Notes অফলাইন স্পিচ-টু-টেক্সট ইন্টারফেস

Whisper Notes: প্রফেশনাল-গ্রেড অফলাইন ট্রান্সক্রিপশন

লেটেন্সি সমীকরণ বদলে গেছে

ক্লাউড ট্রান্সক্রিপশনে একটি নির্দিষ্ট লেটেন্সি ফ্লোর আছে: অডিও আপলোড + সার্ভার কিউ + মডেল ইনফারেন্স + রেজাল্ট ডাউনলোড। আদর্শ নেটওয়ার্ক পরিস্থিতিতেও, এটি কয়েক সেকেন্ডের রাউন্ড-ট্রিপ বিলম্ব মানে। নেটওয়ার্ক অস্থির হলে, এটি দশ সেকেন্ড বা তারও বেশি হতে পারে।

লোকাল ইনফারেন্স এই ভ্যারিয়েবলগুলো দূর করে। Apple Silicon-এ Whisper Large-v3 Turbo কথা বলার সাথে সাথে প্রায় রিয়েল-টাইম স্ট্রিমিং ট্রান্সক্রিপশন অর্জন করতে পারে। আপলোডের জন্য অপেক্ষা নেই, নেটওয়ার্ক জিটার নেই, সার্ভার কিউ নেই।

আমাদের পরিমাপিত ডেটা: M1 MacBook Air-এ, Large-v3 Turbo প্লেব্যাক স্পিডের ৯-১০ গুণ গতিতে অডিও প্রসেস করে। ১০ মিনিটের রেকর্ডিং প্রায় ৬৩ সেকেন্ডে ট্রান্সক্রাইব হয়। এটি পিক পারফরম্যান্স নয়, এটি টেকসই, পুনরাবৃত্তিযোগ্য থ্রুপুট।

হার্ডওয়্যার-অ্যাডাপ্টিভ আর্কিটেকচার

সব ডিভাইস একই মডেল চালাতে পারে না। এটি একটি সীমাবদ্ধতা নয়, এটি একটি ইচ্ছাকৃত ইঞ্জিনিয়ারিং ডিজাইন।

Mac (Large-v3 Turbo, ৮০৯ মিলিয়ন প্যারামিটার)

MacBook এবং Mac-এ অবিরত বিদ্যুৎ সরবরাহ, সক্রিয় কুলিং এবং পর্যাপ্ত মেমরি আছে। এটি সম্পূর্ণ Large-v3 Turbo চালানোর অনুমতি দেয়——এই মডেল Large-v3-এর অ্যাকুরেসি বজায় রেখে ইনফারেন্স স্পিড ৪-৫ গুণ বাড়ায়। আপনি ক্লাউড-লেভেল অ্যাকুরেসি পান, লোকাল-লেভেল স্পিডে।

iPhone (অপ্টিমাইজড Whisper ভ্যারিয়েন্ট)

মোবাইল চিপ পাওয়ার এবং তাপীয় সীমাবদ্ধতার মধ্যে কাজ করে। আমরা Neural Engine-এর জন্য অপ্টিমাইজড Whisper ভ্যারিয়েন্ট ডেপ্লয় করি, পাওয়ার বাজেটের মধ্যে চমৎকার অ্যাকুরেসি বজায় রাখে। ট্রেড-অফ স্পষ্ট: Large-v3 Turbo-এর তুলনায় মডেল সাইজ ছোট, কিন্তু নেটওয়ার্ক লেটেন্সি ছাড়াই ফোনেও সঠিকভাবে কাজ করে।

এই হার্ডওয়্যার-অ্যাডাপ্টিভ পদ্ধতির মানে হল প্রতিটি ডিভাইস সেই মডেল চালায় যা এটি দক্ষতার সাথে চালাতে পারে। "সব জায়গায় একই মডেল" নয়, "প্রতিটি ডিভাইসের জন্য উপযুক্ত মডেল"

প্রাইভেসি একটি ফিচার নয়——এটি আর্কিটেকচার

বেশিরভাগ ক্লাউড ট্রান্সক্রিপশন সার্ভিসের প্রাইভেসি পলিসি আছে যা আপনার ডেটা সুরক্ষিত রাখার প্রতিশ্রুতি দেয়। কিন্তু আর্কিটেকচার প্রাইভেসি পলিসিকে অপ্রাসঙ্গিক করে তোলে।

যখন অডিও নেটওয়ার্কের মধ্য দিয়ে যায়, আপনি এর উপর নিয়ন্ত্রণ হারান। এটি লগ করা যেতে পারে, ক্যাশ করা যেতে পারে, ট্রেনিং-এ ব্যবহার করা যেতে পারে, সাবপোইনা করা যেতে পারে। সবচেয়ে ভালো উদ্দেশ্যের পলিসি থাকলেও, সার্ভারে ডেটার অস্তিত্ব নিজেই একটি অ্যাটাক সারফেস।

লোকাল প্রসেসিং এই অ্যাটাক সারফেস দূর করে। রেকর্ডিং কখনো ডিভাইস ছেড়ে যায় না। কোনো ট্রান্সমিশন লগ নেই, কোনো সার্ভার-সাইড স্টোরেজ নেই, থার্ড-পার্টি অ্যাক্সেসের কোনো সম্ভাবনা নেই। এটি আমাদের উপর ভরসা করার বিষয় নয়, এটি ভরসার প্রয়োজনীয়তা দূর করার বিষয়।

বাস্তব প্রভাব: মেডিকেল প্রফেশনাল, আইনজীবী, সাংবাদিক——যারা সংবেদনশীল কথোপকথন নিয়ে কাজ করেন——তাদের আর ট্রান্সক্রিপশনের সুবিধা এবং গোপনীয়তার মধ্যে ট্রেড-অফ বিবেচনা করতে হবে না। অফলাইন আর্কিটেকচার দুটোই সম্ভব করে তোলে।

কখন ক্লাউড এখনও অর্থপূর্ণ

লোকাল-ফার্স্ট সম্পর্কে আমাদের অবস্থান ইঞ্জিনিয়ারিং-এর উপর ভিত্তি করে, ধর্মীয় বিশ্বাস নয়। এমন পরিস্থিতি আছে যেখানে ক্লাউড সলিউশন এখনও অর্থপূর্ণ:

  • মাল্টি-পার্সন রিয়েল-টাইম কোলাবোরেশন: যদি ১০ জনকে একই সময়ে রিয়েল-টাইম ট্রান্সক্রিপশন দেখতে হয়, শেয়ার্ড সার্ভার একটি যুক্তিসঙ্গত আর্কিটেকচার চয়েস।
  • সীমিত স্টোরেজের পুরানো ডিভাইস: যদি ডিভাইস মডেল ফাইল ধারণ করতে না পারে, ক্লাউড একটি কার্যকর বিকল্প।
  • বিশেষায়িত ভাষা মডেল: অত্যন্ত বিরল ভাষা বা উপভাষার জন্য ক্লাউড-একচেটিয়া মডেল থাকতে পারে।

কিন্তু ব্যক্তিগত রেকর্ডিং, মিটিং নোট, ভয়েস মেমো, ইন্টারভিউ——বেশিরভাগ মানুষের বেশিরভাগ ইউজ কেসের জন্য——লোকাল প্রসেসিং লেটেন্সি, প্রাইভেসি এবং নির্ভরযোগ্যতায় এগিয়ে।

অ্যাকুরেসির সত্য

একটি সাধারণ ভুল ধারণা: বড় ক্লাউড মডেল মানে উচ্চতর অ্যাকুরেসি। ২০২২ সালে এটি সত্য ছিল। এখন আর নয়।

Whisper Large-v3 Turbo একটি ডিস্টিল্ড মডেল——সম্পূর্ণ Large-v3 থেকে শিখে, কম্পিউটেশনাল রিকোয়ারমেন্ট কমিয়ে অ্যাকুরেসি বজায় রাখে। স্ট্যান্ডার্ড বেঞ্চমার্কে, এটি সম্পূর্ণ মডেলের সমান ওয়ার্ড এরর রেট অর্জন করে যখন ইনফারেন্স স্পিড ৪-৫ গুণ দ্রুত।

আরও গুরুত্বপূর্ণ, Whisper-এর ট্রেনিং ডেটা (৬৮০,০০০ ঘণ্টার মাল্টিলিংগুয়াল স্পিচ) নিজেই বিশাল। দৈনন্দিন রেকর্ডিং——মিটিং, লেকচার, ভয়েস মেমো——সম্পূর্ণরূপে এর ক্ষমতার মধ্যে। প্রাচীন ভাষা বা অত্যন্ত বিরল উপভাষার মতো অত্যন্ত বিশেষায়িত কন্টেন্ট ট্রান্সক্রাইব না করলে, লোকাল মডেলের অ্যাকুরেসি প্রফেশনাল ব্যবহারের জন্য যথেষ্ট।

অর্থনৈতিক মডেল তুলনা

সাবস্ক্রিপশন-ভিত্তিক ক্লাউড ট্রান্সক্রিপশনে চলমান খরচ আছে——মিনিট প্রতি চার্জ বা মাসিক ফি। এটি মাঝে মাঝে ব্যবহারকারীদের জন্য সস্তা মনে হয়, কিন্তু ভারী ব্যবহারকারীদের জন্য দ্রুত জমে যায়।

সার্ভিস মূল্য মডেল ২ বছরের খরচ
Otter.ai $16.99/মাস $407
Rev $0.25/মিনিট পরিবর্তনশীল
Whisper Notes $4.99 একবারের $4.99

লোকাল প্রসেসিং-এর অর্থনীতি ভিন্ন: একবারের কেনাকাটা (আমাদের দাম $4.99), তারপর মার্জিনাল খরচ প্রায় শূন্য। ১০ মিনিটের রেকর্ডিং এবং ১০ ঘণ্টার রেকর্ডিং-এর অতিরিক্ত খরচ একই: শূন্য।

এটি "সস্তা" হওয়ার বিষয় নয়, এটি খরচ মডেলের পূর্বাভাসযোগ্যতা সম্পর্কে। যখন একটি টুল ব্যবহার অনুযায়ী চার্জ করে না, আপনি আরও স্বাধীনভাবে ব্যবহার করতে পারেন। দীর্ঘ মিটিং রেকর্ড করুন, আরও ঘন ঘন ভয়েস মেমো রেকর্ড করুন, "এটাতে টাকা খরচ করার মূল্য আছে কি না" এই অভ্যন্তরীণ সংলাপ নেই।

ব্যবহারিক ফিচার

আমরা যে প্রতিটি ফিচার তৈরি করি তা একটি পর্যবেক্ষিত সমস্যার প্রতিক্রিয়া:

লক স্ক্রিন উইজেট

আমরা পর্যবেক্ষণ করেছি যে সবচেয়ে মূল্যবান রেকর্ডিং প্রায়ই হঠাৎ প্রয়োজন হয়——একটি অনুপ্রেরণা, একটি আকস্মিক কথোপকথন, একটি অপ্রত্যাশিত গুরুত্বপূর্ণ কল। ফোন আনলক করা, অ্যাপ খুঁজে বের করা, রেকর্ডিং ট্যাপ করা——প্রতিটি ধাপ সেই মুহূর্তটি হারানোর সুযোগ। লক স্ক্রিন থেকে ওয়ান-ট্যাপ রেকর্ডিং এই বাধা দূর করে।

ইনিশিয়াল প্রম্পট (কাস্টম ভোকাবুলারি)

Whisper সাধারণ কন্টেন্টে চমৎকার পারফর্ম করে, কিন্তু প্রতিটি ক্ষেত্রে এমন পরিভাষা আছে যা এটি চিনতে পারে না। মেডিকেল টার্মিনোলজি, লিগ্যাল টার্ম, ইন্টার্নাল নাম, টেকনিক্যাল অ্যাব্রিভিয়েশন। ইনিশিয়াল প্রম্পট আপনাকে আগে থেকে মডেলকে বলতে দেয় "এই শব্দগুলো আসবে, সঠিকভাবে চিনুন"।

Whisper Notes ইনিশিয়াল প্রম্পট সেটিংস

বিশেষায়িত পরিভাষা সেট করুন রিকগনিশন অ্যাকুরেসি উন্নত করতে

টাইমস্ট্যাম্প সহ প্যারাগ্রাফ

দীর্ঘ রেকর্ডিং-এর মূল্য প্রায়ই নির্দিষ্ট সেগমেন্টে থাকে। টাইমস্ট্যাম্প ছাড়া, সেই একটি বাক্য খুঁজে পেতে পুরো রেকর্ডিং শুনতে হবে। ক্লিকযোগ্য টাইমস্ট্যাম্প থাকলে, সংশ্লিষ্ট অংশে সরাসরি জাম্প করতে পারবেন।

টাইমস্ট্যাম্প এবং প্যারাগ্রাফ সহ দীর্ঘ ট্রান্সক্রিপশন

টাইমস্ট্যাম্প দিয়ে সঠিক অবস্থান খুঁজুন, দ্রুত জাম্প করুন

বাল্ক এক্সপোর্ট

গবেষক, সাংবাদিক, আইনজীবীরা প্রায়ই একসাথে ডজন ডজন রেকর্ডিং প্রসেস করেন। একটি একটি করে এক্সপোর্ট করা একটি অগ্রহণযোগ্য ওয়ার্কফ্লো। বাল্ক অপারেশন এটিকে ব্যবহারিক করে তোলে।

মাল্টিলিংগুয়াল: ৮০+ ভাষা

Whisper-এর ট্রেনিং ডেটা ৯৯টি ভাষা কভার করে, কিন্তু কভারেজের গভীরতা ভিন্ন। ইংরেজি, চীনা, স্প্যানিশ, জার্মান, জাপানি এবং অন্যান্য প্রধান ভাষায় প্রচুর ট্রেনিং ডেটা আছে এবং অ্যাকুরেসি খুব বেশি। মাইনর ভাষার পারফরম্যান্স কিছুটা কম হতে পারে, কিন্তু সাধারণত ব্যবহারযোগ্য।

সৎ সীমাবদ্ধতা: কোড-সুইচিং (রেকর্ডিং-এ একাধিক ভাষা মেশানো) এখনও চ্যালেঞ্জিং। একটি বাক্যে ইংরেজি এবং বাংলা স্যুইচ করলে, মডেল সুইচিং পয়েন্টে ভুল করতে পারে। এটি বর্তমান স্পিচ রিকগনিশন প্রযুক্তির একটি সাধারণ সীমাবদ্ধতা, শুধু আমাদের নয়।

উপসংহার: ইঞ্জিনিয়ারিং চয়েস

আমরা Whisper Notes তৈরি করেছি কারণ স্পিচ ট্রান্সক্রিপশনে লোকাল AI ইনফারেন্স উন্নততর——লেটেন্সি, প্রাইভেসি, নির্ভরযোগ্যতা এবং খরচে। এটি "ক্লাউডের বিরুদ্ধে" বা "লোকাল-ফার্স্টে বিশ্বাস" নয়। এটি প্রযুক্তিগত পরিস্থিতি বদলে গেছে তা স্বীকার করা এবং তার ভিত্তিতে টুল তৈরি করা।

Mac-এ Whisper Large-v3 Turbo এবং iPhone-এ অপ্টিমাইজড মডেল বর্তমান হার্ডওয়্যার আসলে যা চালাতে পারে তার সর্বোত্তম ভারসাম্য উপস্থাপন করে। হার্ডওয়্যার যখন অগ্রসর হতে থাকবে——এবং হবে——আমরা বড় মডেল ডেপ্লয় করব। কিন্তু আজও, লোকাল প্রসেসিং বেশিরভাগ স্পিচ ট্রান্সক্রিপশন টাস্কের জন্য যথেষ্ট এবং মূল মেট্রিক্সে এগিয়ে।

যদি এই আর্কিটেকচার পদ্ধতি আপনার প্রয়োজনের সাথে মেলে, নিচে চেষ্টা করতে পারেন।