Transkripsi awan sudah mati. Ia cuma belum tahu lagi.
Sepanjang tahun lalu, kami telah memerhati perubahan struktur dalam alat transkripsi suara. Dahulu penyelesaian awan menguasai pasaran kerana ia boleh menjalankan model yang lebih besar. Kelebihan itu telah hilang. Kini MacBook anda boleh menjalankan Whisper Large-v3 Turbo dengan 800 juta parameter, memproses 10 minit audio dalam 63 saat. iPhone boleh menjalankan varian yang dioptimumkan untuk SoC mudah alih sepenuhnya luar talian.
Artikel ini menerangkan mengapa pertuturan ke teks luar talian Whisper telah menjadi pilihan yang lebih baik——berdasarkan kejuruteraan, bukan kepercayaan.
Whisper Notes: Transkripsi luar talian gred profesional
Persamaan Latensi Telah Berubah
Transkripsi awan mempunyai had latensi tetap: muat naik audio + baris gilir pelayan + inferens model + muat turun hasil. Walaupun dalam keadaan rangkaian yang ideal, ini bermakna kelewatan pergi-balik beberapa saat. Jika rangkaian tidak stabil, ia boleh menjadi berpuluh saat.
Inferens lokal menghapuskan pemboleh ubah ini. Whisper Large-v3 Turbo pada Apple Silicon boleh mencapai transkripsi penstriman hampir masa nyata semasa anda bercakap. Tiada menunggu muat naik, tiada kegelisahan rangkaian, tiada baris gilir pelayan.
Data pengukuran kami: Pada M1 MacBook Air, Large-v3 Turbo memproses audio pada 9-10x kelajuan main balik. Rakaman 10 minit ditranskripsi dalam kira-kira 63 saat. Ini bukan prestasi puncak tetapi daya tampung berterusan dan boleh diulang.
Seni Bina Adaptif Perkakasan
Tidak semua peranti boleh menjalankan model yang sama. Ini bukan had, tetapi reka bentuk kejuruteraan yang disengajakan.
Mac (Large-v3 Turbo, 809 juta parameter): MacBook dan Mac mempunyai bekalan kuasa berterusan, penyejukan aktif dan memori yang mencukupi. Ini membolehkan menjalankan Large-v3 Turbo sepenuhnya——model yang mengekalkan ketepatan Large-v3 sambil meningkatkan kelajuan inferens 4-5 kali ganda. Anda mendapat ketepatan tahap awan, kelajuan tahap lokal.
iPhone (varian Whisper dioptimumkan): Cip mudah alih beroperasi di bawah kekangan kuasa dan haba. Kami mengerahkan varian Whisper yang dioptimumkan untuk Neural Engine, mengekalkan ketepatan yang sangat baik dalam bajet kuasa. Pertukaran adalah jelas: saiz model lebih kecil berbanding Large-v3 Turbo, tetapi tiada latensi rangkaian dan berfungsi dengan tepat secara konsisten pada telefon.
Sepenuhnya luar talian: Import audio dan transkripsi terus
Privasi adalah Seni Bina, Bukan Ciri
Kebanyakan perkhidmatan transkripsi awan mempunyai dasar privasi yang menjanjikan untuk melindungi data anda. Tetapi seni bina menjadikan dasar privasi tidak relevan.
Saat audio anda melintasi rangkaian, anda kehilangan kawalan ke atasnya. Ia boleh dilog, dicache, digunakan untuk latihan, dipanggil. Walaupun dengan dasar yang berniat baik, kewujudan data pada pelayan adalah sasaran serangan.
Pemprosesan lokal menghapuskan sasaran serangan ini. Rakaman tidak meninggalkan peranti anda. Tiada log pemindahan, tiada storan pelayan, tiada kemungkinan akses pihak ketiga. Ini bukan tentang mempercayai kami, tetapi menghapuskan keperluan untuk kepercayaan.
Bila Awan Masih Masuk Akal
Pendirian kami terhadap lokal-pertama adalah berdasarkan kejuruteraan, bukan dogma. Terdapat senario di mana penyelesaian awan masih masuk akal:
- Kolaborasi masa nyata berbilang orang: Jika 10 orang perlu melihat transkripsi masa nyata serentak, pelayan dikongsi adalah pilihan seni bina yang munasabah.
- Peranti lama dengan had storan: Jika peranti tidak dapat memuatkan fail model, awan adalah alternatif yang boleh dilaksanakan.
- Model bahasa khusus: Bahasa atau dialek yang sangat khusus mungkin mempunyai model awan sahaja.
Kebenaran Tentang Ketepatan
Salah tanggapan biasa: model awan yang lebih besar bermakna ketepatan yang lebih tinggi. Itu benar pada tahun 2022. Tidak lagi sekarang.
Whisper Large-v3 Turbo adalah model penyulingan——belajar dari Large-v3 penuh, mengekalkan ketepatan sambil mengurangkan keperluan pengiraan. Pada penanda aras standard, ia mencapai kadar ralat perkataan yang setanding dengan model penuh sambil inferens 4-5 kali lebih pantas.
Pertimbangan Model Ekonomi
Transkripsi awan berasaskan langganan mempunyai kos berterusan——caj per minit atau yuran bulanan. Ini kelihatan murah untuk pengguna sekali-sekala tetapi terkumpul dengan cepat untuk pengguna kuasa.
Ekonomi pemprosesan lokal adalah berbeza: pembelian sekali sahaja, kemudian kos marginal hampir sifar. Kos tambahan untuk rakaman 10 minit dan rakaman 10 jam adalah sama: sifar.
Perbandingan Kos
| Perkhidmatan | Model Harga | Kos 1 Tahun (1 jam/minggu) |
|---|---|---|
| Otter.ai | $16.99/bulan | $203.88 |
| Rev.com | $0.25/minit | $780 |
| Whisper Notes | $4.99 sekali | $4.99 |
Ciri Praktikal: Mengapa Ia Wujud
Setiap ciri yang kami bina adalah respons kepada masalah yang diperhatikan:
Widget Skrin Kunci
Kami memerhati bahawa rakaman paling berharga sering diperlukan secara tiba-tiba——ilham, perbualan tidak sengaja, panggilan penting yang tidak dijangka. Membuka kunci telefon, mencari aplikasi, mengetuk rakaman——setiap langkah adalah peluang untuk kehilangan momen itu. Rakaman satu ketukan dari skrin kunci menghapuskan halangan ini.
Rakam terus dari skrin kunci, jangan lepaskan inspirasi
Prompt Awal (Perbendaharaan Kata Tersuai)
Whisper berprestasi cemerlang pada kandungan umum, tetapi setiap bidang mempunyai istilah yang tidak dapat dikenali. Istilah perubatan, istilah undang-undang, nama dalaman, singkatan teknikal. Prompt awal membolehkan anda memberitahu model terlebih dahulu "kata-kata ini akan muncul, kenali dengan betul".
Tetapkan istilah khusus untuk meningkatkan ketepatan pengecaman
Perenggan Bercap Masa
Nilai rakaman panjang sering terletak pada segmen tertentu. Tanpa cap masa, anda perlu mendengar keseluruhan rakaman untuk mencari satu ayat itu. Dengan cap masa boleh diklik, anda boleh melompat terus ke bahagian yang berkaitan.
Cari lokasi tepat dengan cap masa, lompat dengan pantas
Eksport Pukal
Penyelidik, wartawan, peguam sering memproses berpuluh rakaman pada satu masa. Mengeksport satu per satu adalah aliran kerja yang tidak dapat diterima. Operasi pukal menjadikan ini praktikal.
Pilih pukal, eksport sekali gus
Berbilang Bahasa: Prestasi Sebenar 80+ Bahasa
Data latihan Whisper meliputi 99 bahasa, tetapi kedalaman liputan berbeza. Bahasa utama seperti Inggeris, Cina, Sepanyol, Jerman, Jepun mempunyai sejumlah besar data latihan dengan ketepatan yang sangat tinggi. Prestasi bahasa minor mungkin sedikit kurang tetapi biasanya boleh digunakan.
Had yang jujur: Penukaran kod (mencampurkan berbilang bahasa dalam rakaman) masih mencabar. Jika anda bertukar antara Inggeris dan Cina dalam satu ayat, model mungkin membuat ralat pada titik penukaran. Ini adalah had umum teknologi pengecaman suara semasa, bukan masalah kami sahaja.
Kesimpulan: Pilihan Kejuruteraan, Bukan Pernyataan Kepercayaan
Kami membina Whisper Notes kerana inferens AI lokal lebih baik untuk transkripsi suara——dalam latensi, privasi, kebolehpercayaan dan kos. Ini bukan tentang "menentang awan" atau "percaya pada lokal-pertama". Ini tentang mengiktiraf bahawa keadaan teknologi telah berubah dan membina alat berdasarkan itu.
Jika pendekatan seni bina ini sesuai dengan keperluan anda, anda boleh mencubanya di bawah.