Whisper Large-v3 Turbo daripada OpenAI memangkas dekoder daripada 32 lapisan kepada 4, mengurangkan parameter daripada 1.55B kepada 809M. Hasilnya: transkripsi 2–5× lebih pantas dengan ketepatan hampir sama. Whisper Notes menyediakannya di Mac dengan Apple Silicon.
V3 Turbo vs V3: Apa yang Berubah
Turbo bukan seni bina baharu. Ia adalah model Whisper Large-v3 yang sama dengan dekoder dipangkas daripada 32 lapisan kepada 4, kemudian ditala halus untuk memulihkan ketepatan. Pengekod tidak disentuh.
| Large-v3 Turbo | Large-v3 | |
|---|---|---|
| Parameter | 809M | 1,550M |
| Lapisan dekoder | 4 | 32 |
| Bahasa | 99 | 99 |
| Tugas terjemahan | Tidak disokong | Disokong |
| Lesen | MIT | Apache 2.0 |
Tugas terjemahan telah dikecualikan secara eksplisit daripada data latihan Turbo. Model penuh Large-v3 menyokongnya, tetapi Whisper Notes hanya menyediakan Turbo — terjemahan dikendalikan secara berasingan melalui Apple Intelligence.
Penanda aras kelajuan: Whisper Notes di Apple Silicon
Dalam Whisper Notes untuk Mac, Turbo berjalan melalui CoreML pada Neural Engine. Memproses 10 minit audio:
| Peranti | Whisper V3 | V3 Turbo | Peningkatan |
|---|---|---|---|
| iPhone 15 Pro | 425 s | 82 s | 5.2× |
| iPad Pro M2 | 380 s | 71 s | 5.4× |
| MacBook Pro M2 | 316 s | 63 s | 5.0× |
Peningkatan 5× adalah khusus untuk Whisper Notes di Apple Silicon, di mana dekoder yang lebih kecil mendapat manfaat daripada pengoptimuman Neural Engine. Pada GPU dengan rangka kerja seperti faster-whisper, perbezaannya mengecil kepada ~2.7× (lihat penanda aras komuniti di bawah).
Ketepatan: Perbandingan WER
Papan pendahulu Hugging Face Open ASR menguji kedua-dua model pada set data bahasa Inggeris yang sama. Kadar ralat perkataan Turbo berada dalam setengah mata daripada V3 merentas setiap penanda aras:
| Set data | V3 Turbo WER | V3 WER |
|---|---|---|
| LibriSpeech Clean | 2.10% | 2.01% |
| LibriSpeech Other | 4.24% | 3.91% |
| GigaSpeech | 10.14% | 10.02% |
| Earnings22 | 11.63% | 11.29% |
| AMI | 16.13% | 15.95% |
| WER purata | 7.83% | 7.44% |
V3 sedikit lebih tepat pada setiap set data, tetapi perbezaannya kecil — 0.39 mata peratusan secara purata. Untuk kebanyakan transkripsi dunia sebenar, anda tidak akan merasakan perbezaannya.
Pada penilaian format panjang YouTube-commons (salah satu penanda aras ASR sumber terbuka terbesar), Turbo mencatat WER 13.40% berbanding 13.20% V3 — sambil berjalan pada faktor masa nyata 129.5× berbanding 55.3×. Itu 2.3× lebih pantas dengan ketepatan hampir sama pada audio dunia sebenar.
Penanda aras komuniti: GPU & CPU
Penanda aras bebas daripada komuniti faster-whisper dan whisper.cpp menunjukkan keputusan yang konsisten merentas perkakasan. Transkripsi 13 minit audio dengan faster-whisper pada GPU:
| Model | Ketepatan | Masa | Memori GPU | WER |
|---|---|---|---|---|
| Large-v3 Turbo | fp16 | 19.2 s | 2,537 MB | 1.92% |
| Large-v3 | fp16 | 52.0 s | 4,521 MB | 2.88% |
| Large-v3 Turbo | int8 | 19.6 s | 1,545 MB | 1.92% |
| Distil-Large-v3 | fp16 | 26.1 s | 2,409 MB | 2.39% |
Sumber: penanda aras faster-whisper pada GPU NVIDIA, split pengesahan bersih LibriSpeech. Turbo int8 hanya menggunakan 1.5 GB VRAM — muat pada GPU 2 GB.
Inferens berkelompok pada RTX 3060 Laptop (6 GB VRAM, ketepatan int8) meningkatkan lagi kelebihan:
| Model | Berurutan | Berkelompok (10) | WER berkelompok |
|---|---|---|---|
| Large-v3 Turbo | 46.1 s | 18.7 s | 7.7% |
| Large-v3 | 230.8 s | 43.0 s | 7.9% |
| Large-v2 | 178.3 s | 43.2 s | 8.8% |
| Medium | 113.3 s | 26.3 s | 8.9% |
Sumber: penanda aras NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio Perancis, ketepatan int8.
Dengan pemprosesan berkelompok, Turbo mencapai WER terbaik antara semua model yang diuji (7.7%) sambil menjadi yang terpantas. Ia adalah pilihan paling sesuai untuk kegunaan pengeluaran.
Had yang diketahui (dan cara Whisper Notes mengendalikannya)
Tiada terjemahan terbina dalam
Turbo dilatih tanpa data terjemahan. Ia hanya mentranskripsi dalam bahasa sumber — tidak seperti Large-v3, yang menyokong terjemahan audio→Inggeris.
Whisper Notes — Apple Intelligence menterjemah transkrip secara automatik ke bahasa pilihan anda, memberikan anda output dwibahasa tanpa mengira model yang anda gunakan.
Lebih banyak halusinasi pada audio bising
Laporan komuniti menunjukkan Turbo lebih banyak berhalusinasi pada klip sangat pendek atau rakaman bising berbanding V3. Dijangka memandangkan dekoder yang dikurangkan (4 lapisan vs 32).
Whisper Notes — menjalankan Pyannote VAD sebelum transkripsi, mengesan segmen pertuturan dan menapis senyap/bising supaya model hanya memproses suara sebenar.
Model mana yang patut anda gunakan?
| Inggeris / Eropah | Parakeet V3 — 10× lebih pantas daripada Whisper, ketepatan lebih baik |
| Cina / Jepun / Korea | SenseVoice — dibina khas untuk CJK, kelajuan 52× |
| Bahasa lain | Whisper Large V3 Turbo — 99 bahasa, ketepatan tinggi, lebih perlahan |