Whisper Large V3 Turbo vs V3: 5× Lebih Pantas di Mac (Benchmark)

6 November 2024
·
6 min read
·Whisper Notes Team

Whisper Large-v3 Turbo daripada OpenAI memangkas dekoder daripada 32 lapisan kepada 4, mengurangkan parameter daripada 1.55B kepada 809M. Hasilnya: transkripsi 2–5× lebih pantas dengan ketepatan hampir sama. Whisper Notes menyediakannya di Mac dengan Apple Silicon.

Perbandingan seni bina Whisper Large V3 Turbo vs V3

V3 Turbo vs V3: Apa yang Berubah

Turbo bukan seni bina baharu. Ia adalah model Whisper Large-v3 yang sama dengan dekoder dipangkas daripada 32 lapisan kepada 4, kemudian ditala halus untuk memulihkan ketepatan. Pengekod tidak disentuh.

Large-v3 Turbo Large-v3
Parameter 809M 1,550M
Lapisan dekoder 4 32
Bahasa 99 99
Tugas terjemahan Tidak disokong Disokong
Lesen MIT Apache 2.0

Tugas terjemahan telah dikecualikan secara eksplisit daripada data latihan Turbo. Model penuh Large-v3 menyokongnya, tetapi Whisper Notes hanya menyediakan Turbo — terjemahan dikendalikan secara berasingan melalui Apple Intelligence.

Penanda aras kelajuan: Whisper Notes di Apple Silicon

Dalam Whisper Notes untuk Mac, Turbo berjalan melalui CoreML pada Neural Engine. Memproses 10 minit audio:

Peranti Whisper V3 V3 Turbo Peningkatan
iPhone 15 Pro 425 s 82 s 5.2×
iPad Pro M2 380 s 71 s 5.4×
MacBook Pro M2 316 s 63 s 5.0×

Peningkatan 5× adalah khusus untuk Whisper Notes di Apple Silicon, di mana dekoder yang lebih kecil mendapat manfaat daripada pengoptimuman Neural Engine. Pada GPU dengan rangka kerja seperti faster-whisper, perbezaannya mengecil kepada ~2.7× (lihat penanda aras komuniti di bawah).

Ketepatan: Perbandingan WER

Papan pendahulu Hugging Face Open ASR menguji kedua-dua model pada set data bahasa Inggeris yang sama. Kadar ralat perkataan Turbo berada dalam setengah mata daripada V3 merentas setiap penanda aras:

Set data V3 Turbo WER V3 WER
LibriSpeech Clean 2.10% 2.01%
LibriSpeech Other 4.24% 3.91%
GigaSpeech 10.14% 10.02%
Earnings22 11.63% 11.29%
AMI 16.13% 15.95%
WER purata 7.83% 7.44%

V3 sedikit lebih tepat pada setiap set data, tetapi perbezaannya kecil — 0.39 mata peratusan secara purata. Untuk kebanyakan transkripsi dunia sebenar, anda tidak akan merasakan perbezaannya.

Pada penilaian format panjang YouTube-commons (salah satu penanda aras ASR sumber terbuka terbesar), Turbo mencatat WER 13.40% berbanding 13.20% V3 — sambil berjalan pada faktor masa nyata 129.5× berbanding 55.3×. Itu 2.3× lebih pantas dengan ketepatan hampir sama pada audio dunia sebenar.

Penanda aras komuniti: GPU & CPU

Penanda aras bebas daripada komuniti faster-whisper dan whisper.cpp menunjukkan keputusan yang konsisten merentas perkakasan. Transkripsi 13 minit audio dengan faster-whisper pada GPU:

Model Ketepatan Masa Memori GPU WER
Large-v3 Turbo fp16 19.2 s 2,537 MB 1.92%
Large-v3 fp16 52.0 s 4,521 MB 2.88%
Large-v3 Turbo int8 19.6 s 1,545 MB 1.92%
Distil-Large-v3 fp16 26.1 s 2,409 MB 2.39%

Sumber: penanda aras faster-whisper pada GPU NVIDIA, split pengesahan bersih LibriSpeech. Turbo int8 hanya menggunakan 1.5 GB VRAM — muat pada GPU 2 GB.

Inferens berkelompok pada RTX 3060 Laptop (6 GB VRAM, ketepatan int8) meningkatkan lagi kelebihan:

Model Berurutan Berkelompok (10) WER berkelompok
Large-v3 Turbo 46.1 s 18.7 s 7.7%
Large-v3 230.8 s 43.0 s 7.9%
Large-v2 178.3 s 43.2 s 8.8%
Medium 113.3 s 26.3 s 8.9%

Sumber: penanda aras NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio Perancis, ketepatan int8.

Dengan pemprosesan berkelompok, Turbo mencapai WER terbaik antara semua model yang diuji (7.7%) sambil menjadi yang terpantas. Ia adalah pilihan paling sesuai untuk kegunaan pengeluaran.

Had yang diketahui (dan cara Whisper Notes mengendalikannya)

Tiada terjemahan terbina dalam

Turbo dilatih tanpa data terjemahan. Ia hanya mentranskripsi dalam bahasa sumber — tidak seperti Large-v3, yang menyokong terjemahan audio→Inggeris.

Whisper Notes — Apple Intelligence menterjemah transkrip secara automatik ke bahasa pilihan anda, memberikan anda output dwibahasa tanpa mengira model yang anda gunakan.

Lebih banyak halusinasi pada audio bising

Laporan komuniti menunjukkan Turbo lebih banyak berhalusinasi pada klip sangat pendek atau rakaman bising berbanding V3. Dijangka memandangkan dekoder yang dikurangkan (4 lapisan vs 32).

Whisper Notes — menjalankan Pyannote VAD sebelum transkripsi, mengesan segmen pertuturan dan menapis senyap/bising supaya model hanya memproses suara sebenar.

Model mana yang patut anda gunakan?

Inggeris / Eropah Parakeet V3 — 10× lebih pantas daripada Whisper, ketepatan lebih baik
Cina / Jepun / Korea SenseVoice — dibina khas untuk CJK, kelajuan 52×
Bahasa lain Whisper Large V3 Turbo — 99 bahasa, ketepatan tinggi, lebih perlahan