Whisper Large V3 Turbo vs V3: 5× Szybszy na Mac (Benchmark)

Whisper Large-v3 Turbo od OpenAI redukuje dekoder z 32 warstw do 4, zmniejszając liczbę parametrów z 1,55 mld do 809 mln. W naszych testach na Apple Silicon transkrybował to samo audio około 5× szybciej przy niemal identycznej dokładności. Whisper Notes dostarcza go na Maca i iPhone'a.

Porównanie architektury Whisper Large V3 Turbo i V3

V3 Turbo vs V3: co się zmieniło

Turbo to nie nowa architektura. To dokładnie ten sam model Whisper Large-v3 z dekoderem przyciętym z 32 warstw do 4, a następnie dostrojonym, by odzyskać dokładność. Enkoder pozostał nietknięty.

	Large-v3 Turbo	Large-v3
Parametry	809 mln	1550 mln
Warstwy dekodera	4	32
Języki	ponad 100	ponad 100
Zadanie tłumaczenia	Nieobsługiwane	Obsługiwane
Licencja	MIT	Apache 2.0

Metoda: ten sam 10-minutowy plik audio transkrybowano w tej samej wersji Whisper Notes na każdym z wymienionych urządzeń. Czasy to sekundy zegarowe od startu transkrypcji do gotowego tekstu; między V3 a Turbo zmieniał się wyłącznie model.

Zadanie tłumaczenia zostało celowo wyłączone z danych treningowych Turbo. Pełny model Large-v3 je obsługuje, ale Whisper Notes dostarcza wyłącznie Turbo — tłumaczenie jest realizowane osobno przez Apple Intelligence.

Model bazowy: czym jest Whisper Large-v3?

Whisper Large-v3 to flagowy otwartoźródłowy model rozpoznawania mowy OpenAI, wydany w listopadzie 2023. Ma 1,55 mld parametrów, używa spektrogramu o 128 pasmach mel, był trenowany na 5 milionach godzin audio (1 mln godzin słabo oznaczonych + 4 mln pseudooznaczonych) i obsługuje ponad 100 języków, w tym kantoński. Na Open ASR Leaderboard od Hugging Face osiąga średnio ~7,4% współczynnika błędów słów — to pułap dokładności, z którym Turbo jest porównywany w całym tym artykule. Jak Large-v3 wypada na tle wszystkich innych modeli działających na urządzeniu, zobaczysz w naszym porównaniu modeli Whisper.

Benchmark szybkości: Whisper Notes na Apple Silicon

W Whisper Notes na Maca Turbo działa przez CoreML na Neural Engine. Przetwarzanie 10 minut audio:

Urządzenie	Whisper V3	V3 Turbo	Przyspieszenie
iPhone 15 Pro	425 s	82 s	5,2×
iPad Pro M2	380 s	71 s	5,4×
MacBook Pro M2	316 s	63 s	5,0×

Pięciokrotne przyspieszenie dotyczy konkretnie Whisper Notes na Apple Silicon, gdzie mniejszy dekoder korzysta z optymalizacji Neural Engine. Na GPU z frameworkami takimi jak faster-whisper różnica zawęża się do ~2,7× (zobacz benchmarki społeczności poniżej).

Dokładność: porównanie WER

Open ASR Leaderboard od Hugging Face testuje oba modele na tych samych angielskich zbiorach danych. Współczynnik błędów słów Turbo mieści się w pół punktu od V3 w każdym benchmarku:

Zbiór danych	WER V3 Turbo	WER V3
LibriSpeech Clean	2,10%	2,01%
LibriSpeech Other	4,24%	3,91%
GigaSpeech	10,14%	10,02%
Earnings22	11,63%	11,29%
AMI	16,13%	15,95%
Średni WER	7,83%	7,44%

V3 jest odrobinę dokładniejszy na każdym zbiorze, ale różnica jest mała — średnio 0,39 punktu procentowego. W większości rzeczywistych transkrypcji tej różnicy nie usłyszysz.

W długoformatowej ewaluacji YouTube-commons (jednym z największych otwartych benchmarków ASR) Turbo osiąga 13,40% WER wobec 13,20% dla V3 — działając przy współczynniku 129,5× czasu rzeczywistego wobec 55,3×. To 2,3× szybciej przy niemal identycznej dokładności na rzeczywistym audio.

Jak dokładny jest Turbo po koreańsku, rosyjsku i w innych językach?

Powyższe benchmarki dotyczą angielskiego. Według karty modelu OpenAI przycięty 4-warstwowy dekoder Turbo kosztuje nieco więcej dokładności w językach innych niż angielski, z największym spadkiem w językach o mniejszych zasobach. Dla rosyjskiego i większości języków europejskich Turbo pozostaje blisko pełnego Large-v3 — a jeśli używasz Whisper Notes, Parakeet V3 obsługuje rosyjski i 24 inne języki europejskie (w tym polski) przy 10× szybkości Whispera.

Dla koreańskiego, japońskiego, chińskiego i kantońskiego model zbudowany specjalnie pod te języki jest zarówno szybszy, jak i lepiej interpunkcjonowany: SenseVoice transkrybuje CJK przy 52× czasu rzeczywistego. Whisper Notes dostarcza SenseVoice obok Turbo zarówno na Macu, jak i na iOS, więc możesz dobrać właściwy model do języka, zamiast przepuszczać wszystko przez jeden.

Benchmarki społeczności: GPU i CPU

Niezależne benchmarki społeczności faster-whisper i whisper.cpp pokazują spójne wyniki na różnym sprzęcie. Transkrypcja 13 minut audio przez faster-whisper na GPU:

Model	Precyzja	Czas	Pamięć GPU	WER
Large-v3 Turbo	fp16	19,2 s	2537 MB	1,92%
Large-v3	fp16	52,0 s	4521 MB	2,88%
Large-v3 Turbo	int8	19,6 s	1545 MB	1,92%
Distil-Large-v3	fp16	26,1 s	2409 MB	2,39%

Źródło: benchmark faster-whisper na GPU NVIDIA, zbiór walidacyjny LibriSpeech clean. Turbo int8 używa tylko 1,5 GB VRAM — mieści się na GPU z 2 GB.

Wsadowe przetwarzanie na RTX 3060 Laptop (6 GB VRAM, precyzja int8) jeszcze powiększa przewagę:

Model	Sekwencyjnie	Wsadowo (10)	WER wsadowy
Large-v3 Turbo	46,1 s	18,7 s	7,7%
Large-v3	230,8 s	43,0 s	7,9%
Large-v2	178,3 s	43,2 s	8,8%
Medium	113,3 s	26,3 s	8,9%

Źródło: benchmark NilaierMusic, Intel i7-12650H + RTX 3060 Laptop 6 GB, audio francuskie, precyzja int8.

Przy przetwarzaniu wsadowym Turbo osiąga najlepszy WER ze wszystkich testowanych modeli (7,7%), będąc jednocześnie najszybszym. To wyraźny złoty środek do zastosowań produkcyjnych.

Turbo vs Medium vs każdy rozmiar modelu Whisper

Przed Turbo zwyczajowym kompromisem był Medium: akceptowalna dokładność przy znośnej szybkości. Turbo czyni ten kompromis przestarzałym — przy 809 mln parametrów jest ledwie większy od Medium (769 mln), a dostarcza dokładność klasy large przy kilkukrotnie wyższej szybkości. Oto cała rodzina modeli obok siebie:

Model	Parametry	Rozmiar na dysku	Względna szybkość	Poziom dokładności
tiny	39 mln	~75 MB	~10×	Najniższy
base	74 mln	~142 MB	~7×	Niski
small	244 mln	~466 MB	~4×	Umiarkowany
medium	769 mln	~1,5 GB	~2×	Wysoki
large-v3	1550 mln	~2,9 GB	1× (punkt odniesienia)	Najwyższy
large-v3-turbo	809 mln	~1,6 GB	~5× na Apple Silicon	Prawie najwyższy

Wydany 30 września 2024, Turbo ma 809 mln parametrów. Jeśli wybierałeś Medium, by oszczędzić miejsce na dysku lub zyskać szybkość, Turbo bije go teraz i w dokładności, i w szybkości, przy mniej więcej tym samym rozmiarze.

Znane ograniczenia (i jak radzi sobie z nimi Whisper Notes)

Brak wbudowanego tłumaczenia

Turbo trenowano bez danych tłumaczeniowych. Transkrybuje wyłącznie w języku źródłowym — w przeciwieństwie do Large-v3, który obsługuje tłumaczenie audio→angielski.

Whisper Notes — Apple Intelligence automatycznie tłumaczy transkrypcje na wybrany język, dając dwujęzyczny wynik niezależnie od użytego modelu.

Więcej halucynacji na zaszumionym audio

Doniesienia społeczności wskazują, że Turbo halucynuje częściej na bardzo krótkich klipach lub zaszumionych nagraniach niż V3. To spodziewane przy zredukowanym dekoderze (4 warstwy zamiast 32).

Whisper Notes — uruchamia Pyannote VAD przed transkrypcją, wykrywając segmenty mowy i usuwając ciszę oraz szum, tak aby model przetwarzał wyłącznie prawdziwy głos.

Którego modelu użyć?

Angielski / języki europejskie	Parakeet V3 — 10× szybszy niż Whisper, lepsza dokładność
Chiński / japoński / koreański	SenseVoice — stworzony pod CJK, szybkość 52×
Pozostałe języki	Whisper Large V3 Turbo — ponad 100 języków, wysoka dokładność, wolniejszy

Whisper Large-v3 Turbo — FAQ

Czym różni się Whisper Large-v3 od Large-v3 Turbo?

Large-v3 Turbo zachowuje enkoder Large-v3, ale redukuje dekoder z 32 warstw do 4. Dlatego jest znacznie szybszy, pozostając blisko dokładności Large-v3 w transkrypcji. Kompromis: Turbo nie obsługuje wbudowanego zadania tłumaczenia Whispera.

Czy faster-whisper obsługuje Large-v3 Turbo?

Tak. faster-whisper obsługuje Large-v3 Turbo poprzez konwersje CTranslate2, a benchmarki społeczności pokazują, że Turbo to mocny wybór przy ograniczonym VRAM. W powyższym benchmarku Turbo int8 zużywał około 1,5 GB VRAM.

Czy whisper.cpp obsługuje Large-v3 Turbo?

Tak. whisper.cpp potrafi uruchamiać skonwertowane wersje GGML/GGUF modelu Whisper Large-v3 Turbo. Jeśli budujesz własny lokalny pipeline transkrypcji, Turbo często łatwiej zmieścić na konsumenckim sprzęcie niż pełny Large-v3.

Skąd pobrać openai/whisper-large-v3-turbo?

Oficjalne wagi modelu są dostępne od OpenAI na Hugging Face. Użytkownicy Whisper Notes nie muszą pobierać ich ręcznie: aplikacja na Maca obsługuje konfigurację lokalnego modelu z poziomu interfejsu.

Porównujesz wszystkie lokalne opcje? Każdy działający na urządzeniu model mowy na tekst — warianty Whisper, Parakeet V3, SenseVoice i Voxtral — zestawiamy obok siebie na naszej stronie porównania modeli Whisper. Dopiero zaczynasz z Whisperem? Zacznij od przewodnika po transkrypcji Whisper — czym jest ten model, wszystkie sposoby jego uruchomienia i ile to kosztuje.

Pobierz na iOS

Pobierz na macOS