অফলাইন ট্রান্সক্রিপশন

কেন এটি অবশেষে কাজ করছে

বছরের পর বছর, স্থানীয় ট্রান্সক্রিপশন মানে ছিল ধীর এবং খারাপ। এটা বদলে গেছে।

অফলাইন ট্রান্সক্রিপশন সফটওয়্যার

কিছুটা প্রেক্ষাপট

কয়েক বছর আগে, আপনি যদি সঠিক ট্রান্সক্রিপশন চাইতেন, তাহলে আপনাকে আপনার অডিও অন্য কারো সার্ভারে আপলোড করতে হতো। স্থানীয় বিকল্প ছিল, কিন্তু সেগুলো লক্ষণীয়ভাবে খারাপ ছিল। আপোষ বাস্তব ছিল।

তারপর কয়েকটি ঘটনা ঘটল। OpenAI ওপেন মডেল হিসেবে Whisper প্রকাশ করল। Apple ডেডিকেটেড AI হার্ডওয়্যার সহ চিপ শিপিং শুরু করল। হঠাৎ করে যে মডেলগুলো ক্লাউড সেবা চালাত সেগুলো ল্যাপটপে চলতে পারত।

আমরা প্রায় সেই সময়ে Whisper Notes তৈরি করা শুরু করি, মূলত কারণ আমাদের নিজেদের এটা দরকার ছিল। দেখা গেল অনেকেই একই জিনিস খুঁজছিল।

কী বদলেছে

তিনটি জিনিস ক্লাউড ট্রান্সক্রিপশনকে স্পষ্ট পছন্দ করে তুলত। তিনটিই বদলে গেছে।

কম্পিউটিং ক্ষমতা

ট্রান্সক্রিপশন করা AI মডেলগুলো বড়—শত শত মিলিয়ন প্যারামিটার। সেগুলো চালানো কনজিউমার হার্ডওয়্যারে ধীর এবং ব্যাটারি নিষ্কাশন করত।

Apple-এর Neural Engine এটা বদলে দিয়েছে। এটা AI কাজের জন্য একটি ডেডিকেটেড চিপ, এবং এটা প্রতিটি M-series Mac এবং সাম্প্রতিক iPhone-এ আছে। Whisper Large v3 Turbo এখন MacBook Air-এ আরামে চলে।

ফোনে, আমরা মোবাইল চিপের জন্য অপটিমাইজড ছোট মডেল ব্যবহার করি। সেগুলো বড় মডেলের মতো সঠিক নয়, কিন্তু বেশিরভাগ বিল্ট-ইন ডিক্টেশনের চেয়ে ভালো।

সঠিকতা

এটা আমাদের অবাক করেছে। আমরা আশা করেছিলাম স্থানীয় মডেলগুলো "যথেষ্ট ভালো" হবে। আসলে সেগুলো বেশ ভালো।

Whisper Large v3-এ বেশিরভাগ সিস্টেম ডিক্টেশনের চেয়ে কম শব্দ ত্রুটির হার আছে। এবং স্থানীয় ও ক্লাউড API-এর মধ্যে পার্থক্য বেশ ছোট হয়ে গেছে। বেশিরভাগ ব্যবহারের ক্ষেত্রে, আপনি সম্ভবত পার্থক্য লক্ষ্য করবেন না।

এটা হিসাব বদলে দেয়। যদি সঠিকতা তুলনীয় হয়, অডিও আপলোড করার প্রধান কারণ অদৃশ্য হয়ে যায়।

গোপনীয়তা

আমরা এখানে আপনাকে ক্লাউড সেবা সম্পর্কে ভয় দেখাতে আসিনি। বেশিরভাগই দায়িত্বশীলভাবে ডেটা পরিচালনা করে।

কিন্তু "তারা প্রতিশ্রুতি দেয় অপব্যবহার করবে না" এবং "তাদের কাছে কখনো ছিল না" এর মধ্যে পার্থক্য আছে। আপনার কণ্ঠ বায়োমেট্রিক—পাসওয়ার্ডের বিপরীতে, কিছু ভুল হলে আপনি এটা বদলাতে পারেন না।

স্থানীয় ট্রান্সক্রিপশনে, আপনার অডিও আপনার ডিভাইসে থাকে। এনক্রিপ্টেড-তারপর-আপলোডেড নয়। শুধু... থাকে। কিছু মানুষের কাছে এটা অনেক গুরুত্বপূর্ণ। অন্যদের কাছে, হয়তো না। আমরা প্রথম দলের জন্য তৈরি করেছি।

কখন কী ব্যবহার করবেন

স্থানীয় সবসময় সঠিক পছন্দ নয়। আমরা এভাবে ভাবি।

রিয়েল-টাইম সহযোগিতা দরকার?

Otter-এর মতো ক্লাউড টুল এর জন্য তৈরি। একই ট্রান্সক্রিপ্ট সম্পাদনা করা একাধিক মানুষের কেন্দ্রীয় সার্ভার দরকার। এটা ক্লাউডের ভালো ব্যবহার।

Windows বা Android ব্যবহার করেন?

সেই প্ল্যাটফর্মগুলোতে স্থানীয় AI কঠিন—হার্ডওয়্যার সাপোর্ট এখনো পরিপক্ব নয়। Dragon Windows-এর জন্য কাজ করে। Android-এ, ক্লাউড সেবা সাধারণত বাস্তবসম্মত পছন্দ।

কে কী বলেছে জানা দরকার?

স্পিকার আইডেন্টিফিকেশন (ডায়ারাইজেশন) অতিরিক্ত মডেল দরকার। Rev-এর মতো ক্লাউড সেবা এটা ভালো করে। স্থানীয় টুল ধরছে, কিন্তু এটা এখনো এমন একটি ক্ষেত্র যেখানে ক্লাউডের সুবিধা আছে।

শুধু প্রাইভেট, সঠিক ট্রান্সক্রিপশন দরকার?

এটাই আমাদের ফোকাস। যদি আপনার প্রধান উদ্বেগ গোপনীয়তা এবং সঠিকতা হয়, এবং আপনি Apple হার্ডওয়্যারে থাকেন, স্থানীয় এখন ভালো কাজ করে।

Whisper Notes কী করে

এটা আপনার Mac-এ Whisper Large v3 Turbo চালায়, বা আপনার iPhone-এ একটি ছোট অপটিমাইজড মডেল। আপনার অডিও কখনো ডিভাইস ছেড়ে যায় না।

Mac-এ, ট্রান্সক্রিপশন Neural Engine ব্যবহার করে রিয়েল-টাইম গতির প্রায় ১০-১৫ গুণ চলে। এক ঘণ্টার রেকর্ডিং-এ কয়েক মিনিট লাগে। iPhone-এ ধীর, কিন্তু বেশিরভাগ রেকর্ডিং-এর জন্য বাস্তবসম্মত।

দুই প্ল্যাটফর্মের জন্য একবার $4.99। আমরা সার্ভার চালাই না, তাই সাবস্ক্রিপশন দরকার নেই। এটুকুই।

$4.99একবার কেনা। Mac এবং iPhone। কোনো সাবস্ক্রিপশন নেই। কোনো ডেটা সংগ্রহ নেই।
Apple App Store logoWhisper Notes পান

সংক্ষেপে

স্থানীয় ট্রান্সক্রিপশন আগে একটি আপোষ ছিল। এখন এটা অনেক মানুষের জন্য একটি যুক্তিসঙ্গত ডিফল্ট।

যদি আপনার সহযোগিতা দরকার হয় বা নন-Apple প্ল্যাটফর্মে কাজ করেন, ক্লাউড সেবা এখনো অর্থপূর্ণ। যদি আপনি মূলত Mac বা iPhone-এ সঠিক, প্রাইভেট ট্রান্সক্রিপশন চান, স্থানীয় বিকল্প বেশ ভালো হয়ে গেছে।

আমরা প্রতিদিন নিজেরাই Whisper Notes ব্যবহার করি। এটা আমাদের যা দরকার ছিল তাই করে।

চেষ্টা করুন

কিছু আপলোড হচ্ছে না যাচাই করতে চাইলে এয়ারপ্লেন মোডে পরীক্ষা করতে পারেন। সবকিছু একইভাবে কাজ করে।

App Store • $4.99 • Mac এবং iPhone

একটি কেনাকাটা দুই প্ল্যাটফর্ম কভার করে।