Whisper transkripsiyon: sesi metne çevirme rehberi (2026)

2 Temmuz 2026
·
9 min read
·Whisper Notes Team

Whisper transkripsiyon, OpenAI'nin Whisper modeliyle sesi metne çevirmek demektir — bulutta, bir sunucuda veya tamamen kendi cihazınızda çalıştırabileceğiniz açık kaynaklı bir yapay zeka modeli. Bu rehber, Whisper'ın nasıl çalıştığını, hangi model boyutunu seçmeniz gerektiğini, gerçekte ne kadar doğru olduğunu ve onu Mac veya iPhone'da çevrimdışı çalıştırmanın en hızlı yolunu anlatıyor.

Whisper tam olarak nedir?

Whisper, OpenAI'nin Eylül 2022'de MIT lisansıyla yayımladığı bir otomatik konuşma tanıma (ASR) modelidir. 680.000 saatten fazla çok dilli ses üzerinde eğitilmiş bir encoder-decoder transformer'dır; yaklaşık 100 dilde transkripsiyon ve İngilizceye çeviri yapabilir.

Sizin için önemli olan kısım: modelin ağırlıkları açık. Google'ın veya Amazon'un konuşma API'lerinin aksine, Whisper'ın başkasının sunucusunda çalışması gerekmiyor. Onu yerelde çalıştırmak için koca bir ekosistem var — whisper.cpp, faster-whisper ve Whisper Notes gibi yerel uygulamalar. Gerçekten çevrimdışı ve gizli transkripsiyonu mümkün kılan da bu.

Whisper model boyutları: hangisini kullanmalı

Whisper altı ana boyutta gelir. Büyük olan daha doğru ama daha yavaştır:

Model Parametre Hız En uygun olduğu durum
tiny 39M En hızlı Hızlı taslaklar, zayıf donanım
base 74M Çok hızlı Basit, temiz ses
small 244M Hızlı Mobilde iyi hız/doğruluk dengesi
medium 769M Orta Bugün nadiren doğru seçim
large-v3 1.55B En yavaş Maksimum doğruluk, zor ses kayıtları
large-v3-turbo 809M large-v3'ten ~5x daha hızlı 2026'nın varsayılan tercihi

Neredeyse herkes için cevap large-v3-turbo: large-v3'ün encoder'ını korur ama decoder katmanlarını 32'den 4'e indirir; böylece çok daha az işlem gücüyle neredeyse aynı doğruluğu sunar. Ayrıntılı ölçümlerimiz için: Whisper Large V3 Turbo vs V3.

Whisper transkripsiyon ne kadar doğru?

Temiz İngilizce seste büyük modeller yaklaşık %5-8 kelime hata oranına (WER) ulaşır — çoğu pratik amaç için profesyonel insan transkripsiyonuyla karşılaştırılabilir düzeyde. Arka plan gürültüsü, güçlü aksanlar, üst üste binen konuşmalar ve az kaynaklı dillerde doğruluk düşer.

Whisper'ın meşhur bir zaafı var: sessizlik sırasında halüsinasyonlar. Otoregresif decoder'ı, kimse konuşmuyorken bazen tekrarlanan ifadeler veya altyazı jenerikleri uydurur. Daha yeni modeller bunu düzeltiyor — NVIDIA'nın Parakeet V3'ü konuşma içermeyen sesler üzerinde de özel olarak eğitildi ve testlerimizde sıfır halüsinasyon üretiyor (tam Parakeet V3 vs Whisper karşılaştırması).

Çince, Japonca, Korece ve Kantonca için özel bir model hem hızda hem noktalamada Whisper'ı geçiyor: bkz. CJK dilleri için SenseVoice vs Whisper.

Whisper transkripsiyonu çalıştırmanın 5 yolu

Yöntem Maliyet Gizlilik Kurulum
OpenAI API Ses dakikası başına ücret Ses sunucuya yüklenir API anahtarı + kod
openai-whisper (referans Python) Ücretsiz %100 yerel Python ortamı, GPU önerilir
whisper.cpp / faster-whisper Ücretsiz %100 yerel Komut satırı
Yerel uygulama (Whisper Notes) $6.99 tek seferlik, Mac'te ücretsiz deneme %100 cihaz üzerinde Yok
Web demo araçları Ücretsiz katmanlar Ses sunucuya yüklenir Yok

Genel kural: terminalde yaşıyorsanız faster-whisper mükemmeldir. Bir ürün geliştiriyorsanız API mantıklıdır. Kayıtlarınızı Python'a hiç dokunmadan, gizli bir şekilde metne çevirmek istiyorsanız yerel bir uygulama kullanın — Mac için Whisper uygulamalarının var olma nedeni tam olarak bu.

Çevrimdışı araçları daha geniş çapta mı değerlendiriyorsunuz — Windows ve Android seçenekleri dahil? Eksiksiz çevrimdışı sesi metne çevirme rehberimize göz atın.

Whisper vs daha yeni yerel modeller (2026)

Yerel transkripsiyon çağını Whisper başlattı, ama artık yalnız değil. Aşağıdaki hızlar M4 Pro bir Mac'te ölçüldü:

Model Diller Hız Öne çıkan yönü
Whisper Large V3 Turbo 100+ ~12x gerçek zamanlı En geniş dil kapsamı
Parakeet V3 25 (Avrupa dilleri) ~100x gerçek zamanlı %6,32 WER, sessizlikte halüsinasyon yok
SenseVoice Small zh, ja, ko, yue, en ~52x gerçek zamanlı Çince, Japonca, Korece için en iyisi

Üçü de Whisper Notes içinde yerel olarak çalışır ve her kayıt için model değiştirebilirsiniz. Yan yana karşılaştırmalar Whisper modelleri karşılaştırma sayfamızda.

Mac ve iPhone'da Whisper transkripsiyonu çevrimdışı nasıl çalıştırılır

Komut satırı yok, Python yok, bulut yok:

  1. Mac için Whisper Notes'u (ücretsiz deneme) veya iPhone sürümünü ($6.99 tek seferlik) indirin.
  2. Bir model seçin: geniş dil kapsamı için Whisper Large V3 Turbo, İngilizcede hız için Parakeet V3, CJK dilleri için SenseVoice. Bir kez indirilir, sonra sonsuza dek çevrimdışı çalışır.
  3. Doğrudan kayıt yapın, Fn tuşunu basılı tutarak sistem genelinde dikte edin veya ses ve video dosyalarını bırakın (MP3, WAV, M4A, MP4).
  4. Metin işlenirken akış halinde gelir. TXT veya SRT olarak dışa aktarın.

"Çevrimdışı" iddiasına şüpheyle mi bakıyorsunuz? Önce uçak modunu açın. Transkripsiyon tam hızda çalışır — hiçbir şey, hiçbir zaman yüklenmez.

Whisper transkripsiyon Türkçede ne kadar doğru? Hangi model seçilmeli?

Türkçe için doğru seçim Whisper Large V3 Turbo: desteklediği 100'den fazla dil arasında Türkçe de var ve ~1,5 GB boyutuyla tamamen cihaz üzerinde çalışıyor. Parakeet V3 (25 Avrupa dili) ve SenseVoice (Çince/Japonca/Korece/Kantonca odaklı) Türkçeyi kapsamıyor; bu yüzden Whisper Notes'ta Türkçe kayıtlar için modeli Large V3 Turbo'ya alın. Temiz Türkçe seste sonuçlar güçlüdür; gürültülü ortamlarda harici bir mikrofon doğruluğu belirgin şekilde artırır. Model hem Mac'te hem iPhone'da tamamen çevrimdışı çalışır.

Sıkça sorulan sorular

Whisper transkripsiyon ücretsiz mi?

Modelin kendisi ücretsiz ve açık kaynak (MIT lisansı). whisper.cpp gibi komut satırı araçlarıyla çalıştırmak para gerektirmez ama kurulum ister. OpenAI'nin API'si ses dakikası başına ücret alır. Yerel uygulamalar modelleri küçük bir ücret karşılığında paketler — Whisper Notes tek seferlik $6.99, Mac'te ücretsiz deneme ile.

Whisper transkripsiyon çevrimdışı çalışabilir mi?

Evet — açık ağırlıkların bütün amacı bu. Model dosyası cihazınıza indikten sonra internete gerek kalmaz. Whisper Notes, Whisper Large V3 Turbo'yu Apple Silicon üzerinde CoreML/Metal ile tamamen çevrimdışı çalıştırır. Uçak moduyla doğrulayabilirsiniz.

En doğru Whisper modeli hangisi?

Ham doğrulukta en iyisi large-v3. large-v3-turbo ise WER'de yüzde birin altında bir farkla ona denk gelirken yaklaşık 5x daha hızlı çalışıyor; bugün çoğu araçta varsayılan olmasının nedeni bu.

Whisper benim dilimi destekliyor mu?

Whisper yaklaşık 100 dili kapsar; en güçlü olduğu diller bol veriye sahip olanlardır (İngilizce, İspanyolca, Almanca, Fransızca vb.). Çince, Japonca, Korece ve Kantonca için SenseVoice, Apple Silicon üzerinde daha iyi noktalama ve çok daha yüksek hız sunar.

iPhone için bir Whisper transkripsiyon uygulaması var mı?

Evet. Whisper Notes, iPhone'un Neural Engine'i için optimize edilmiş Whisper modellerini çalıştırır (iPhone 12 ve üzeri) — kayıt yapın, Sesli Notlar veya Dosyalar'dan içe aktarın ve tamamen cihaz üzerinde metne çevirin; $6.99, abonelik yok.