Whisper Large V3 Turbo vs V3: 5× Lebih Pantas di Mac (Benchmark)

Whisper Large-v3 Turbo daripada OpenAI memangkas dekoder daripada 32 lapisan kepada 4, mengurangkan parameter daripada 1.55B kepada 809M. Dalam ujian kami di Apple Silicon, ia mentranskripsi audio yang sama kira-kira 5× lebih pantas dengan ketepatan hampir sama. Whisper Notes menyediakannya di Mac dan iPhone.

Perbandingan seni bina Whisper Large V3 Turbo vs V3

V3 Turbo vs V3: Apa yang Berubah

Turbo bukan seni bina baharu. Ia adalah model Whisper Large-v3 yang sama dengan dekoder dipangkas daripada 32 lapisan kepada 4, kemudian ditala halus untuk memulihkan ketepatan. Pengekod tidak disentuh.

	Large-v3 Turbo	Large-v3
Parameter	809M	1,550M
Lapisan dekoder	4	32
Bahasa	100+	100+
Tugas terjemahan	Tidak disokong	Disokong
Lesen	MIT	Apache 2.0

Kaedah: fail audio 10 minit yang sama ditranskripsi dengan binaan Whisper Notes yang sama pada setiap peranti yang dinamakan. Masa ialah saat mengikut jam sebenar dari mula transkripsi hingga teks akhir; hanya model yang berubah antara V3 dan Turbo.

Tugas terjemahan telah dikecualikan secara eksplisit daripada data latihan Turbo. Model penuh Large-v3 menyokongnya, tetapi Whisper Notes hanya menyediakan Turbo — terjemahan dikendalikan secara berasingan melalui Apple Intelligence.

Model Asas: Apakah Whisper Large-v3?

Whisper Large-v3 ialah model pengecaman pertuturan sumber terbuka perdana OpenAI, dikeluarkan pada November 2023. Ia mempunyai 1.55B parameter, menggunakan input spektrogram 128 mel-bin, dilatih dengan 5 juta jam audio (1 juta jam weakly labeled + 4 juta jam pseudo-labeled), dan menyokong lebih 100 bahasa termasuk Kantonis. Pada papan pendahulu Hugging Face Open ASR, purata kadar ralat perkataannya sekitar ~7.4% — siling ketepatan yang digunakan untuk mengukur Turbo sepanjang artikel ini. Untuk melihat bagaimana Large-v3 berbanding setiap model pada peranti yang lain, lihat halaman perbandingan model Whisper kami.

Penanda aras kelajuan: Whisper Notes di Apple Silicon

Dalam Whisper Notes untuk Mac, Turbo berjalan melalui CoreML pada Neural Engine. Memproses 10 minit audio:

Peranti	Whisper V3	V3 Turbo	Peningkatan
iPhone 15 Pro	425 s	82 s	5.2×
iPad Pro M2	380 s	71 s	5.4×
MacBook Pro M2	316 s	63 s	5.0×

Peningkatan 5× adalah khusus untuk Whisper Notes di Apple Silicon, di mana dekoder yang lebih kecil mendapat manfaat daripada pengoptimuman Neural Engine. Pada GPU dengan rangka kerja seperti faster-whisper, perbezaannya mengecil kepada ~2.7× (lihat penanda aras komuniti di bawah).

Ketepatan: Perbandingan WER

Papan pendahulu Hugging Face Open ASR menguji kedua-dua model pada set data bahasa Inggeris yang sama. Kadar ralat perkataan Turbo berada dalam setengah mata daripada V3 merentas setiap penanda aras:

Set data	V3 Turbo WER	V3 WER
LibriSpeech Clean	2.10%	2.01%
LibriSpeech Other	4.24%	3.91%
GigaSpeech	10.14%	10.02%
Earnings22	11.63%	11.29%
AMI	16.13%	15.95%
WER purata	7.83%	7.44%

V3 sedikit lebih tepat pada setiap set data, tetapi perbezaannya kecil — 0.39 mata peratusan secara purata. Untuk kebanyakan transkripsi dunia sebenar, anda tidak akan merasakan perbezaannya.

Pada penilaian format panjang YouTube-commons (salah satu penanda aras ASR sumber terbuka terbesar), Turbo mencatat WER 13.40% berbanding 13.20% V3 — sambil berjalan pada faktor masa nyata 129.5× berbanding 55.3×. Itu 2.3× lebih pantas dengan ketepatan hampir sama pada audio dunia sebenar.

Sejauh Mana Ketepatan Turbo dalam Bahasa Korea, Rusia dan Bahasa Lain?

Penanda aras di atas adalah dalam bahasa Inggeris. Menurut model card OpenAI, dekoder 4 lapisan Turbo yang dipangkas mengorbankan sedikit lebih banyak ketepatan dalam bahasa bukan Inggeris berbanding bahasa Inggeris, dengan penurunan paling ketara pada bahasa bersumber rendah. Untuk bahasa Rusia dan kebanyakan bahasa Eropah, Turbo kekal hampir dengan Large-v3 penuh — dan jika anda menggunakan Whisper Notes, Parakeet V3 merangkumi bahasa Rusia dan 24 bahasa Eropah lain pada kelajuan 10× Whisper.

Untuk bahasa Korea, Jepun, Cina dan Kantonis, model yang dibina khusus adalah lebih pantas dan lebih kemas tanda bacanya: SenseVoice mentranskripsi CJK pada 52× masa nyata. Whisper Notes menyediakan SenseVoice bersama Turbo di Mac dan iOS, jadi anda boleh memilih model yang sesuai untuk setiap bahasa dan bukannya memaksa semuanya melalui satu model.

Penanda aras komuniti: GPU & CPU

Penanda aras bebas daripada komuniti faster-whisper dan whisper.cpp menunjukkan keputusan yang konsisten merentas perkakasan. Transkripsi 13 minit audio dengan faster-whisper pada GPU:

Model	Ketepatan	Masa	Memori GPU	WER
Large-v3 Turbo	fp16	19.2 s	2,537 MB	1.92%
Large-v3	fp16	52.0 s	4,521 MB	2.88%
Large-v3 Turbo	int8	19.6 s	1,545 MB	1.92%
Distil-Large-v3	fp16	26.1 s	2,409 MB	2.39%

Sumber: penanda aras faster-whisper pada GPU NVIDIA, split pengesahan bersih LibriSpeech. Turbo int8 hanya menggunakan 1.5 GB VRAM — muat pada GPU 2 GB.

Inferens berkelompok pada RTX 3060 Laptop (6 GB VRAM, ketepatan int8) meningkatkan lagi kelebihan:

Model	Berurutan	Berkelompok (10)	WER berkelompok
Large-v3 Turbo	46.1 s	18.7 s	7.7%
Large-v3	230.8 s	43.0 s	7.9%
Large-v2	178.3 s	43.2 s	8.8%
Medium	113.3 s	26.3 s	8.9%

Sumber: penanda aras NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio Perancis, ketepatan int8.

Dengan pemprosesan berkelompok, Turbo mencapai WER terbaik antara semua model yang diuji (7.7%) sambil menjadi yang terpantas. Ia adalah pilihan paling sesuai untuk kegunaan pengeluaran.

Turbo vs Medium vs Setiap Saiz Model Whisper

Sebelum Turbo, Medium ialah kompromi biasa: ketepatan yang boleh diterima pada kelajuan yang masih tertanggung. Turbo menjadikan pertukaran itu lapuk — pada 809M parameter, ia hampir tidak lebih besar daripada Medium (769M), namun memberikan ketepatan kelas large pada kelajuan beberapa kali ganda. Berikut ialah keseluruhan keluarga model secara bersebelahan:

Model	Parameter	Saiz Cakera	Kelajuan Relatif	Tahap Ketepatan
tiny	39M	~75 MB	~10×	Paling rendah
base	74M	~142 MB	~7×	Rendah
small	244M	~466 MB	~4×	Sederhana
medium	769M	~1.5 GB	~2×	Tinggi
large-v3	1,550M	~2.9 GB	1× (garis asas)	Paling tinggi
large-v3-turbo	809M	~1.6 GB	~5× di Apple Silicon	Hampir paling tinggi

Dikeluarkan pada 30 September 2024, Turbo mempunyai 809M parameter. Jika dahulu anda memilih Medium untuk menjimatkan ruang cakera atau mengejar kelajuan, Turbo kini mengatasinya dari segi ketepatan dan kelajuan pada saiz yang lebih kurang sama.

Had yang diketahui (dan cara Whisper Notes mengendalikannya)

Tiada terjemahan terbina dalam

Turbo dilatih tanpa data terjemahan. Ia hanya mentranskripsi dalam bahasa sumber — tidak seperti Large-v3, yang menyokong terjemahan audio→Inggeris.

Whisper Notes — Apple Intelligence menterjemah transkrip secara automatik ke bahasa pilihan anda, memberikan anda output dwibahasa tanpa mengira model yang anda gunakan.

Lebih banyak halusinasi pada audio bising

Laporan komuniti menunjukkan Turbo lebih banyak berhalusinasi pada klip sangat pendek atau rakaman bising berbanding V3. Dijangka memandangkan dekoder yang dikurangkan (4 lapisan vs 32).

Whisper Notes — menjalankan Pyannote VAD sebelum transkripsi, mengesan segmen pertuturan dan menapis senyap/bising supaya model hanya memproses suara sebenar.

Model mana yang patut anda gunakan?

Inggeris / Eropah	Parakeet V3 — 10× lebih pantas daripada Whisper, ketepatan lebih baik
Cina / Jepun / Korea	SenseVoice — dibina khas untuk CJK, kelajuan 52×
Bahasa lain	Whisper Large V3 Turbo — 100+ bahasa, ketepatan tinggi, lebih perlahan

Soalan Lazim Whisper Large-v3 Turbo

Apakah perbezaan antara Whisper Large-v3 dan Large-v3 Turbo?

Large-v3 Turbo mengekalkan pengekod Large-v3 tetapi mengurangkan dekoder daripada 32 lapisan kepada 4. Itulah sebabnya ia jauh lebih pantas sambil kekal hampir dengan ketepatan transkripsi Large-v3. Pertukarannya ialah Turbo tidak menyokong tugas terjemahan terbina dalam Whisper.

Adakah faster-whisper menyokong Large-v3 Turbo?

Ya. faster-whisper menyokong Large-v3 Turbo melalui penukaran CTranslate2, dan penanda aras komuniti menunjukkan Turbo ialah pilihan kukuh apabila VRAM terhad. Dalam penanda aras di atas, Turbo int8 menggunakan kira-kira 1.5 GB VRAM.

Adakah whisper.cpp menyokong Large-v3 Turbo?

Ya. whisper.cpp boleh menjalankan versi GGML/GGUF yang telah ditukar daripada Whisper Large-v3 Turbo. Jika anda membina saluran transkripsi tempatan anda sendiri, Turbo selalunya lebih mudah dimuatkan pada perkakasan pengguna biasa berbanding Large-v3 penuh.

Di manakah saya boleh memuat turun openai/whisper-large-v3-turbo?

Pemberat model rasmi tersedia daripada OpenAI di Hugging Face. Pengguna Whisper Notes tidak perlu memuat turunnya secara manual: aplikasi Mac mengendalikan persediaan model tempatan melalui antara muka aplikasi.

Sedang membandingkan semua pilihan tempatan? Setiap model pertuturan-ke-teks pada peranti — varian Whisper, Parakeet V3, SenseVoice dan Voxtral — dibandingkan secara bersebelahan di halaman perbandingan model Whisper kami. Baru mengenali Whisper? Mulakan dengan Panduan Transkripsi Whisper — apakah model itu, setiap cara untuk menjalankannya, dan berapa kosnya.

Muat Turun untuk iOS

Muat Turun untuk macOS