Whisper Large V3 Turbo vs V3: Mac पर 5 गुना तेज़ (बेंचमार्क)

OpenAI का Whisper Large-v3 Turbo decoder को 32 लेयर्स से घटाकर 4 कर देता है, जिससे पैरामीटर्स 1.55B से 809M रह जाते हैं। हमारे Apple Silicon परीक्षणों में इसने वही ऑडियो लगभग 5× तेज़ी से, लगभग समान सटीकता के साथ ट्रांसक्राइब किया। Whisper Notes इसे Mac और iPhone पर उपलब्ध कराता है।

Whisper Large V3 Turbo बनाम V3 आर्किटेक्चर तुलना

V3 Turbo बनाम V3: क्या बदला

Turbo कोई नया आर्किटेक्चर नहीं है। यह ठीक वही Whisper Large-v3 मॉडल है जिसमें decoder को 32 लेयर्स से 4 तक प्रून किया गया है, फिर सटीकता वापस पाने के लिए fine-tune किया गया है। encoder अपरिवर्तित है।

	Large-v3 Turbo	Large-v3
पैरामीटर्स	809M	1,550M
Decoder लेयर्स	4	32
भाषाएँ	100+	100+
अनुवाद कार्य	समर्थित नहीं	समर्थित
लाइसेंस	MIT	Apache 2.0

पद्धति: वही 10-मिनट की ऑडियो फ़ाइल हर नामित डिवाइस पर एक ही Whisper Notes बिल्ड में ट्रांसक्राइब की गई। समय ट्रांसक्रिप्शन शुरू करने से लेकर अंतिम टेक्स्ट तक के वॉल-क्लॉक सेकंड हैं; V3 और Turbo के बीच केवल मॉडल बदला गया।

Turbo के प्रशिक्षण डेटा से अनुवाद कार्य को स्पष्ट रूप से बाहर रखा गया था। पूर्ण Large-v3 मॉडल इसे सपोर्ट करता है, लेकिन Whisper Notes केवल Turbo शिप करता है — अनुवाद Apple Intelligence के माध्यम से अलग से किया जाता है।

बेस मॉडल: Whisper Large-v3 क्या है?

Whisper Large-v3 OpenAI का फ्लैगशिप ओपन-सोर्स स्पीच रिकग्निशन मॉडल है, जो नवंबर 2023 में रिलीज़ हुआ। इसमें 1.55B पैरामीटर्स हैं, यह 128 mel-bin स्पेक्ट्रोग्राम इनपुट उपयोग करता है, 5 मिलियन घंटे के ऑडियो (1M कमज़ोर लेबल वाले + 4M स्यूडो-लेबल वाले) पर प्रशिक्षित है, और Cantonese सहित 100+ भाषाएँ सपोर्ट करता है। Hugging Face Open ASR Leaderboard पर इसकी औसत शब्द त्रुटि दर ~7.4% है — यही वह सटीकता की सीमा है जिसके सापेक्ष इस पूरे लेख में Turbo को मापा गया है। Large-v3 बाक़ी हर ऑन-डिवाइस मॉडल के मुक़ाबले कहाँ ठहरता है, इसके लिए हमारी Whisper मॉडल तुलना देखें।

स्पीड बेंचमार्क: Apple Silicon पर Whisper Notes

Mac के लिए Whisper Notes में, Turbo Neural Engine पर CoreML के ज़रिए चलता है। 10 मिनट के ऑडियो की प्रोसेसिंग:

डिवाइस	Whisper V3	V3 Turbo	स्पीडअप
iPhone 15 Pro	425 s	82 s	5.2×
iPad Pro M2	380 s	71 s	5.4×
MacBook Pro M2	316 s	63 s	5.0×

5× स्पीडअप Apple Silicon पर Whisper Notes के लिए विशिष्ट है, जहाँ छोटा decoder Neural Engine ऑप्टिमाइज़ेशन से लाभ उठाता है। faster-whisper जैसे फ्रेमवर्क के साथ GPU पर, अंतर ~2.7× तक कम हो जाता है (नीचे कम्युनिटी बेंचमार्क देखें)।

सटीकता: WER तुलना

Hugging Face Open ASR Leaderboard दोनों मॉडलों का एक ही अंग्रेज़ी डेटासेट पर परीक्षण करता है। Turbo की शब्द त्रुटि दर (WER) हर बेंचमार्क में V3 के आधे अंक के भीतर है:

डेटासेट	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
औसत WER	7.83%	7.44%

V3 हर डेटासेट पर थोड़ा अधिक सटीक है, लेकिन अंतर छोटा है — औसतन 0.39 प्रतिशत अंक। अधिकांश वास्तविक ट्रांसक्रिप्शन में, आपको अंतर सुनाई नहीं देगा।

YouTube-commons लॉन्ग-फ़ॉर्म मूल्यांकन (सबसे बड़े ओपन-सोर्स ASR बेंचमार्क में से एक) पर, Turbo 13.40% WER स्कोर करता है बनाम V3 का 13.20% — जबकि 129.5× रियल-टाइम फैक्टर पर चलता है बनाम 55.3×। यानी वास्तविक ऑडियो पर लगभग समान सटीकता के साथ 2.3× तेज़।

कोरियाई, रूसी और अन्य भाषाओं में Turbo कितना सटीक है?

ऊपर के बेंचमार्क अंग्रेज़ी के हैं। OpenAI के मॉडल कार्ड के अनुसार, Turbo का प्रून किया गया 4-लेयर decoder गैर-अंग्रेज़ी भाषाओं में अंग्रेज़ी की तुलना में सटीकता की थोड़ी ज़्यादा कीमत लेता है, और सबसे बड़ी गिरावट कम-संसाधन वाली भाषाओं में होती है। रूसी और अधिकांश यूरोपीय भाषाओं के लिए Turbo पूर्ण Large-v3 के करीब रहता है — और यदि आप Whisper Notes पर हैं, तो Parakeet V3 रूसी और 24 अन्य यूरोपीय भाषाओं को Whisper की 10× स्पीड पर कवर करता है।

कोरियाई, जापानी, चीनी और Cantonese के लिए एक उद्देश्य-निर्मित मॉडल तेज़ भी है और विराम-चिह्नों में बेहतर भी: SenseVoice CJK को 52× रियल-टाइम पर ट्रांसक्राइब करता है। Whisper Notes SenseVoice को Turbo के साथ Mac और iOS दोनों पर शिप करता है, ताकि आप हर चीज़ को एक ही मॉडल से गुज़ारने के बजाय हर भाषा के लिए सही मॉडल चुन सकें।

कम्युनिटी बेंचमार्क: GPU और CPU

faster-whisper और whisper.cpp समुदायों के स्वतंत्र बेंचमार्क विभिन्न हार्डवेयर पर लगातार परिणाम दिखाते हैं। GPU पर faster-whisper के साथ 13 मिनट के ऑडियो का ट्रांसक्रिप्शन:

मॉडल	प्रिसिज़न	समय	GPU मेमोरी	WER
Large-v3 Turbo	fp16	19.2 s	2,537 MB	1.92%
Large-v3	fp16	52.0 s	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2,409 MB	2.39%

स्रोत: NVIDIA GPU पर faster-whisper बेंचमार्क, LibriSpeech clean वैलिडेशन स्प्लिट। Turbo int8 केवल 1.5 GB VRAM उपयोग करता है — यह 2 GB GPU में फिट हो जाता है।

RTX 3060 Laptop (6 GB VRAM, int8 प्रिसिज़न) पर बैच्ड इन्फेरेंस लाभ को और बढ़ाता है:

मॉडल	क्रमिक	बैच्ड (10)	बैच्ड WER
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

स्रोत: NilaierMusic बेंचमार्क, Intel i7-12650H + RTX 3060 Laptop 6 GB, फ्रेंच ऑडियो, int8 प्रिसिज़न।

बैच्ड प्रोसेसिंग के साथ, Turbo सभी परीक्षित मॉडलों में सबसे अच्छा WER (7.7%) प्राप्त करता है और साथ ही सबसे तेज़ भी है। यह प्रोडक्शन उपयोग के लिए स्पष्ट रूप से सबसे अच्छा विकल्प है।

Turbo बनाम Medium बनाम हर Whisper मॉडल साइज़

Turbo से पहले, Medium आम समझौता हुआ करता था: सहनीय स्पीड पर स्वीकार्य सटीकता। Turbo उस ट्रेड-ऑफ़ को अप्रचलित बना देता है — 809M पैरामीटर्स पर यह Medium (769M) से मुश्किल से ही बड़ा है, फिर भी कई गुना स्पीड पर large-क्लास सटीकता देता है। यहाँ पूरा मॉडल परिवार साथ-साथ है:

मॉडल	पैरामीटर्स	डिस्क साइज़	सापेक्ष स्पीड	सटीकता स्तर
tiny	39M	~75 MB	~10×	सबसे कम
base	74M	~142 MB	~7×	कम
small	244M	~466 MB	~4×	मध्यम
medium	769M	~1.5 GB	~2×	उच्च
large-v3	1,550M	~2.9 GB	1× (बेसलाइन)	सर्वोच्च
large-v3-turbo	809M	~1.6 GB	Apple Silicon पर ~5×	लगभग सर्वोच्च

30 सितंबर 2024 को रिलीज़ हुआ Turbo 809M पैरामीटर्स का है। यदि आप डिस्क स्पेस या स्पीड बचाने के लिए Medium चुनते थे, तो Turbo अब लगभग समान फ़ुटप्रिंट पर सटीकता और स्पीड दोनों में उससे बेहतर है।

ज्ञात सीमाएँ (और Whisper Notes उन्हें कैसे संभालता है)

कोई अंतर्निहित अनुवाद नहीं

Turbo को अनुवाद डेटा के बिना प्रशिक्षित किया गया था। यह केवल स्रोत भाषा में ट्रांसक्राइब करता है — Large-v3 के विपरीत, जो ऑडियो→अंग्रेज़ी अनुवाद सपोर्ट करता है।

Whisper Notes — Apple Intelligence स्वचालित रूप से ट्रांसक्रिप्ट को आपकी चुनी हुई भाषा में अनुवाद करता है, चाहे कोई भी मॉडल उपयोग हो, द्विभाषी आउटपुट प्रदान करता है।

शोर वाले ऑडियो पर अधिक हैलुसिनेशन

कम्युनिटी रिपोर्ट बताती हैं कि Turbo बहुत छोटे क्लिप या शोर वाली रिकॉर्डिंग पर V3 की तुलना में अधिक हैलुसिनेट करता है। कम decoder (4 लेयर्स बनाम 32) को देखते हुए यह अपेक्षित है।

Whisper Notes — ट्रांसक्रिप्शन से पहले Pyannote VAD चलाता है, वॉइस सेगमेंट का पता लगाता है और साइलेंस/नॉइज़ हटाता है ताकि मॉडल केवल असली आवाज़ प्रोसेस करे।

आपको कौन सा मॉडल उपयोग करना चाहिए?

अंग्रेज़ी / यूरोपीय	Parakeet V3 — Whisper से 10× तेज़, बेहतर सटीकता
चीनी / जापानी / कोरियाई	SenseVoice — CJK के लिए निर्मित, 52× स्पीड
अन्य भाषाएँ	Whisper Large V3 Turbo — 100+ भाषाएँ, उच्च सटीकता, धीमा

Whisper Large-v3 Turbo: अक्सर पूछे जाने वाले प्रश्न

Whisper Large-v3 और Large-v3 Turbo में क्या अंतर है?

Large-v3 Turbo Large-v3 का encoder बरकरार रखता है लेकिन decoder को 32 लेयर्स से घटाकर 4 कर देता है। इसीलिए यह ट्रांसक्रिप्शन के लिए Large-v3 की सटीकता के करीब रहते हुए बहुत तेज़ है। ट्रेड-ऑफ़ यह है कि Turbo Whisper के अंतर्निहित अनुवाद कार्य को सपोर्ट नहीं करता।

क्या faster-whisper Large-v3 Turbo को सपोर्ट करता है?

हाँ। faster-whisper CTranslate2 रूपांतरणों के ज़रिए Large-v3 Turbo को सपोर्ट करता है, और कम्युनिटी बेंचमार्क दिखाते हैं कि VRAM सीमित होने पर Turbo एक मज़बूत विकल्प है। ऊपर के बेंचमार्क में Turbo int8 ने लगभग 1.5 GB VRAM उपयोग किया।

क्या whisper.cpp Large-v3 Turbo को सपोर्ट करता है?

हाँ। whisper.cpp Whisper Large-v3 Turbo के परिवर्तित GGML/GGUF संस्करण चला सकता है। यदि आप अपनी खुद की लोकल ट्रांसक्रिप्शन पाइपलाइन बना रहे हैं, तो Turbo को उपभोक्ता हार्डवेयर पर फिट करना अक्सर पूर्ण Large-v3 की तुलना में आसान होता है।

openai/whisper-large-v3-turbo कहाँ से डाउनलोड कर सकते हैं?

आधिकारिक मॉडल वेट्स Hugging Face पर OpenAI की ओर से उपलब्ध हैं। Whisper Notes उपयोगकर्ताओं को उन्हें मैन्युअल रूप से डाउनलोड करने की ज़रूरत नहीं है: Mac ऐप ऐप इंटरफ़ेस के ज़रिए लोकल मॉडल सेटअप संभालता है।

सभी लोकल विकल्पों की तुलना कर रहे हैं? हर ऑन-डिवाइस स्पीच-टू-टेक्स्ट मॉडल — Whisper वेरिएंट, Parakeet V3, SenseVoice और Voxtral — की साथ-साथ तुलना हमारे Whisper मॉडल तुलना पेज पर है। Whisper में ही नए हैं? Whisper ट्रांसक्रिप्शन गाइड से शुरू करें — मॉडल क्या है, इसे चलाने के सभी तरीके, और इसकी लागत क्या है।

iOS के लिए डाउनलोड करें

macOS के लिए डाउनलोड करें