Transkripsi awan sudah mati. Ia cuma belum tahu lagi.
Sepanjang tahun lalu, kami telah memerhati perubahan struktur dalam alat transkripsi suara. Dahulu penyelesaian awan menguasai pasaran kerana ia boleh menjalankan model yang lebih besar. Kelebihan itu telah hilang. Kini MacBook anda boleh menjalankan Whisper Large-v3 Turbo dengan 800 juta parameter, memproses 10 minit audio dalam 63 saat. iPhone boleh menjalankan varian yang dioptimumkan untuk SoC mudah alih sepenuhnya luar talian.
Artikel ini menerangkan mengapa pertuturan ke teks luar talian Whisper telah menjadi pilihan yang lebih baik——berdasarkan kejuruteraan, bukan kepercayaan.
Whisper Notes: Transkripsi luar talian gred profesional
Persamaan Latensi Telah Berubah
Transkripsi awan mempunyai had latensi tetap: muat naik audio + baris gilir pelayan + inferens model + muat turun hasil. Walaupun dalam keadaan rangkaian yang ideal, ini bermakna kelewatan pergi-balik beberapa saat. Jika rangkaian tidak stabil, ia boleh menjadi berpuluh saat.
Inferens lokal menghapuskan pemboleh ubah ini. Whisper Large-v3 Turbo pada Apple Silicon boleh mencapai transkripsi penstriman hampir masa nyata semasa anda bercakap. Tiada menunggu muat naik, tiada kegelisahan rangkaian, tiada baris gilir pelayan.
Data pengukuran kami: Pada M1 MacBook Air, Large-v3 Turbo memproses audio pada 9-10x kelajuan main balik. Rakaman 10 minit ditranskripsi dalam kira-kira 63 saat. Ini bukan prestasi puncak tetapi daya tampung berterusan dan boleh diulang.
Seni Bina Adaptif Perkakasan
Tidak semua peranti boleh menjalankan model yang sama. Ini bukan had, tetapi reka bentuk kejuruteraan yang disengajakan.
Mac (Large-v3 Turbo, 809 juta parameter): MacBook dan Mac mempunyai bekalan kuasa berterusan, penyejukan aktif dan memori yang mencukupi. Ini membolehkan menjalankan Large-v3 Turbo sepenuhnya——model yang mengekalkan ketepatan Large-v3 sambil meningkatkan kelajuan inferens 4-5 kali ganda. Anda mendapat ketepatan tahap awan, kelajuan tahap lokal.
iPhone (varian Whisper dioptimumkan): Cip mudah alih beroperasi di bawah kekangan kuasa dan haba. Kami mengerahkan varian Whisper yang dioptimumkan untuk Neural Engine, mengekalkan ketepatan yang sangat baik dalam bajet kuasa. Pertukaran adalah jelas: saiz model lebih kecil berbanding Large-v3 Turbo, tetapi tiada latensi rangkaian dan berfungsi dengan tepat secara konsisten pada telefon.
Sepenuhnya luar talian: Import audio dan transkripsi terus
Privasi adalah Seni Bina, Bukan Ciri
Kebanyakan perkhidmatan transkripsi awan mempunyai dasar privasi yang menjanjikan untuk melindungi data anda. Tetapi seni bina menjadikan dasar privasi tidak relevan.
Saat audio anda melintasi rangkaian, anda kehilangan kawalan ke atasnya. Ia boleh dilog, dicache, digunakan untuk latihan, dipanggil. Walaupun dengan dasar yang berniat baik, kewujudan data pada pelayan adalah sasaran serangan.
Pemprosesan lokal menghapuskan sasaran serangan ini. Rakaman tidak meninggalkan peranti anda. Tiada log pemindahan, tiada storan pelayan, tiada kemungkinan akses pihak ketiga. Ini bukan tentang mempercayai kami, tetapi menghapuskan keperluan untuk kepercayaan.
Bila Awan Masih Masuk Akal
Pendirian kami terhadap lokal-pertama adalah berdasarkan kejuruteraan, bukan dogma. Terdapat senario di mana penyelesaian awan masih masuk akal:
- Kolaborasi masa nyata berbilang orang: Jika 10 orang perlu melihat transkripsi masa nyata serentak, pelayan dikongsi adalah pilihan seni bina yang munasabah.
- Peranti lama dengan had storan: Jika peranti tidak dapat memuatkan fail model, awan adalah alternatif yang boleh dilaksanakan.
- Model bahasa khusus: Bahasa atau dialek yang sangat khusus mungkin mempunyai model awan sahaja.
Kebenaran Tentang Ketepatan
Salah tanggapan biasa: model awan yang lebih besar bermakna ketepatan yang lebih tinggi. Itu benar pada tahun 2022. Tidak lagi sekarang.
Whisper Large-v3 Turbo adalah model penyulingan——belajar dari Large-v3 penuh, mengekalkan ketepatan sambil mengurangkan keperluan pengiraan. Pada penanda aras standard, ia mencapai kadar ralat perkataan yang setanding dengan model penuh sambil inferens 4-5 kali lebih pantas.
Pertimbangan Model Ekonomi
Transkripsi awan berasaskan langganan mempunyai kos berterusan——caj per minit atau yuran bulanan. Ini kelihatan murah untuk pengguna sekali-sekala tetapi terkumpul dengan cepat untuk pengguna kuasa.
Ekonomi pemprosesan lokal adalah berbeza: pembelian sekali sahaja, kemudian kos marginal hampir sifar. Kos tambahan untuk rakaman 10 minit dan rakaman 10 jam adalah sama: sifar.
Perbandingan Kos
| Perkhidmatan | Model Harga | Kos 1 Tahun (1 jam/minggu) |
|---|---|---|
| Otter.ai | $16.99/bulan | $203.88 |
| Rev.com | $0.25/minit | $780 |
| Whisper Notes | $6.99 sekali | $6.99 |
Ciri Praktikal: Mengapa Ia Wujud
Setiap ciri yang kami bina adalah respons kepada masalah yang diperhatikan:
Widget Skrin Kunci
Kami memerhati bahawa rakaman paling berharga sering diperlukan secara tiba-tiba——ilham, perbualan tidak sengaja, panggilan penting yang tidak dijangka. Membuka kunci telefon, mencari aplikasi, mengetuk rakaman——setiap langkah adalah peluang untuk kehilangan momen itu. Rakaman satu ketukan dari skrin kunci menghapuskan halangan ini.
Rakam terus dari skrin kunci, jangan lepaskan inspirasi
Prompt Awal (Perbendaharaan Kata Tersuai)
Whisper berprestasi cemerlang pada kandungan umum, tetapi setiap bidang mempunyai istilah yang tidak dapat dikenali. Istilah perubatan, istilah undang-undang, nama dalaman, singkatan teknikal. Prompt awal membolehkan anda memberitahu model terlebih dahulu "kata-kata ini akan muncul, kenali dengan betul".
Tetapkan istilah khusus untuk meningkatkan ketepatan pengecaman
Perenggan Bercap Masa
Nilai rakaman panjang sering terletak pada segmen tertentu. Tanpa cap masa, anda perlu mendengar keseluruhan rakaman untuk mencari satu ayat itu. Dengan cap masa boleh diklik, anda boleh melompat terus ke bahagian yang berkaitan.
Cari lokasi tepat dengan cap masa, lompat dengan pantas
Eksport Pukal
Penyelidik, wartawan, peguam sering memproses berpuluh rakaman pada satu masa. Mengeksport satu per satu adalah aliran kerja yang tidak dapat diterima. Operasi pukal menjadikan ini praktikal.
Pilih pukal, eksport sekali gus
Berbilang Bahasa: Prestasi Sebenar 80+ Bahasa
Data latihan Whisper meliputi 99 bahasa, tetapi kedalaman liputan berbeza. Bahasa utama seperti Inggeris, Cina, Sepanyol, Jerman, Jepun mempunyai sejumlah besar data latihan dengan ketepatan yang sangat tinggi. Prestasi bahasa minor mungkin sedikit kurang tetapi biasanya boleh digunakan.
Had yang jujur: Penukaran kod (mencampurkan berbilang bahasa dalam rakaman) masih mencabar. Jika anda bertukar antara Inggeris dan Cina dalam satu ayat, model mungkin membuat ralat pada titik penukaran. Ini adalah had umum teknologi pengecaman suara semasa, bukan masalah kami sahaja.
Butiran Teknikal
Device requirements: iPhone 12+ (cip A14) atau Mac dengan cip M-series.
Models: Parakeet V3 (103x masa nyata, 6.32% WER untuk Inggeris). SenseVoice Small (52x masa nyata untuk Cina, Jepun, Korea, Kantonis). Whisper Large V3 Turbo (100+ bahasa). Ketiga-tiga berjalan secara lokal pada Mac.
Speed: Parakeet V3: 35 min audio dalam 20 saat pada M4 Pro. SenseVoice: 27 min podcast Cina dalam 14 saat. Whisper Turbo: 35 min dalam ~3 minit.
AI Editing: Gemma 4 pada peranti membetulkan tanda baca, mengalih keluar perkataan pengisi (um, uh), menjana tajuk dan menjawab soalan tentang transkripsi anda.
Price: $6.99 sekali. Percubaan percuma pada Mac. Tanpa langganan kerana kami tidak mengendalikan pelayan.
Soalan Lazim
Bolehkah transkripsi dibuat tanpa sambungan internet?
Ya. Whisper Notes adalah perisian transkripsi luar talian yang berjalan sepenuhnya pada peranti anda. Ketiga-tiga model AI — Parakeet V3, SenseVoice dan Whisper — memproses audio secara lokal menggunakan Neural Engine Mac anda atau cip A-series iPhone anda. Tiada data dimuat naik, tiada pelayan dihubungi. Anda boleh mengujinya sendiri dengan mengaktifkan mod penerbangan.
Adakah OpenAI Whisper berfungsi luar talian?
Ya. OpenAI mengeluarkan Whisper sebagai model sumber terbuka, bermakna ia boleh berjalan secara lokal pada perkakasan anda. Whisper Notes membungkus Whisper Large V3 Turbo untuk berjalan pada Apple Silicon melalui CoreML/Metal — tanpa Python, tanpa baris arahan, tanpa internet. Menyokong pengecaman pertuturan luar talian dalam 100+ bahasa.
Adakah Whisper Notes tersedia untuk Windows atau Android?
Belum lagi. Whisper Notes kini menyokong Mac (M-series) dan iPhone (12+). Untuk Windows, alternatif termasuk faster-whisper (baris arahan) atau Buzz (GUI). Kami mungkin menyokong platform lain pada masa hadapan, tetapi Neural Engine Apple Silicon memberikan pengalaman pertuturan ke teks lokal terbaik untuk pengguna Mac.
Adakah aplikasi transkripsi luar talian percuma?
Whisper Notes menawarkan percubaan percuma pada Mac — muat turun DMG dan cuba tanpa had masa. Pembelian penuh ialah $6.99 sekali (tanpa langganan). Sebagai perbandingan, perkhidmatan transkripsi awan seperti Otter.ai berharga $10-20/bulan. Dalam tiga tahun, itu $360-720 berbanding $6.99 sekali.
Bagaimana Whisper Notes berbanding dengan MacWhisper atau faster-whisper?
MacWhisper ialah antara muka Whisper untuk Mac sahaja. faster-whisper ialah alat baris arahan. Whisper Notes merangkumi tiga model (Parakeet V3, SenseVoice, Whisper), menyokong Mac dan iPhone, menawarkan renyahan seluruh sistem dengan kekunci Fn, widget skrin kunci, penyuntingan AI pada peranti dan eksport pukal — semuanya dengan pembelian sekali $6.99.