SenseVoice: ถอดเสียงจีน ญี่ปุ่น เกาหลี เร็วขึ้น 52 เท่าบน Mac

TL;DR — เปรียบเทียบ 3 โมเดลบน Mac

	Parakeet V3	SenseVoice Small	Whisper Large V3 Turbo
อังกฤษ 5 นาที	2.91s (103×)	5.8s (52×)	20.92s (14.3×)
จีน 27 นาที	10.10s (161×)	13.83s (118×)	2 min 4s (13.1×)
ภาษาที่รองรับ	25 (ยุโรป)	5 (zh, en, ja, ko, yue)	99+
ดาวน์โหลด	465 MB	827 MB	1.5 GB
หน่วยความจำ	~800 MB	~700 MB	~1.6 GB
เหมาะสำหรับ	อังกฤษ & ยุโรป	จีน, ญี่ปุ่น, เกาหลี, กวางตุ้ง	ภาษาอื่นทั้งหมด (99+)

* เบนช์มาร์กความเร็วบน Apple M4 Pro, 32 GB พอดแคสต์อังกฤษ 5 นาทีและพอดแคสต์จีน 27 นาที ตัวคูณเรียลไทม์ = ความยาวเสียง ÷ เวลาประมวลผล (สูงกว่า = เร็วกว่า) SenseVoice ใช้ได้เฉพาะ macOS iOS ใช้ Parakeet (ผ่าน ANE) และ Whisper

เริ่มตั้งแต่ เวอร์ชัน 1.4.8 Whisper Notes สำหรับ Mac ใช้ SenseVoice Small เป็นเอนจิ้นเฉพาะสำหรับการถอดเสียงภาษาจีน ญี่ปุ่น เกาหลี และกวางตุ้ง มาแทนที่ Qwen3-ASR โดยทำงานบน GPU ของ Apple ผ่าน MLX แทน CPU — ประมวลผลพอดแคสต์จีน 27 นาทีใน 13.83 วินาที แทนที่จะเป็น 3 นาที 44 วินาที

ทำไมเราจึงเปลี่ยนจาก Qwen3-ASR

Qwen3-ASR เป็นโมเดลที่ดี รองรับ 30 ภาษาและ 22 สำเนียงจีน ความแม่นยำภาษาจีนใกล้เคียงระดับสูงสุด แต่มีปัญหาที่แย่ลงเมื่อเสียงยาวขึ้น นั่นคือความเร็ว

Qwen3 ใช้สถาปัตยกรรมแบบ autoregressive — วิธีเดียวกับ Whisper ประมวลผลเสียงทีละเฟรม ไม่เคยข้ามไปข้างหน้า พอดแคสต์จีน 27 นาทีใช้เวลา 73 วินาที ใช้งานได้ แต่ไม่ใช่ประสบการณ์ผลลัพธ์ทันทีที่ Parakeet V3 มอบให้สำหรับภาษาอังกฤษ

ปัญหาที่ลึกกว่าคือโครงสร้างพื้นฐาน การรวม Qwen3 ของเราใช้ sherpa-onnx ซึ่งเป็นไลบรารี C ที่มี Swift wrapper 2,249 บรรทัด ส่งทุกอย่างผ่าน CPU GPU ของ Mac ไม่ได้ทำงานเลย

SenseVoice แก้ทั้งสองปัญหา สถาปัตยกรรม non-autoregressive เพื่อความเร็ว Apple MLX เพื่อการเร่งความเร็ว GPU ผลลัพธ์: เร็วขึ้น 16.2 เท่าบนฮาร์ดแวร์เดียวกัน โค้ดลดจาก 2,249 บรรทัดเหลือ 288

เบนช์มาร์ก

ทั้งสามโมเดลทำงานบน Apple M4 Pro เครื่องเดียวกัน ไฟล์เสียงเดียวกัน เงื่อนไขเดียวกัน ไม่มีคลาวด์ ไม่มีอินเทอร์เน็ต มีแค่ซิลิคอน

โมเดล	อังกฤษ 5 นาที	จีน 27 นาที	ความเร็ว (RTFx)
Parakeet V3	2.91s	10.10s	103–161×
SenseVoice Small	5.8s	13.83s	52–118×
Whisper Large V3 Turbo	20.92s	2 min 4s	13–14×
Qwen3-ASR (ลบออกแล้ว)	—	73s	4.7×

SenseVoice เร็วประมาณครึ่งหนึ่งของ Parakeet V3 — แต่ก็ยังเร็วมากอย่างน่าทึ่ง พอดแคสต์ 27 นาทีเสร็จใน 14 วินาที กดถอดเสียง หายใจหนึ่งครั้ง ข้อความก็พร้อมแล้ว

เทียบกับ 2 นาที 4 วินาทีของ Whisper หรือ 73 วินาทีของ Qwen3 เดิม สถาปัตยกรรมสำคัญกว่าจำนวนพารามิเตอร์

ตารางเปรียบเทียบความเร็วการอนุมานอย่างเป็นทางการจากบทความ FunAudioLLM: SenseVoice-Small (70ms ต่อเสียง 10 วินาที) vs Whisper-Small (518ms) vs Whisper-Large-V3 (1281ms) - แสดงสถาปัตยกรรมโมเดล พารามิเตอร์ ภาษาที่รองรับ RTF และเวลาแฝง

เบนช์มาร์กการอนุมานอย่างเป็นทางการจากบทความ FunAudioLLM: SenseVoice-Small ประมวลผลเสียง 10 วินาทีใน 70ms (A800 GPU) Whisper-Large-V3 ใช้เวลา 1,281ms ต่างกัน 18 เท่าในเวลาแฝงการอนุมาน

โมเดล	เวลาโหลด	หน่วยความจำ	ขนาดดาวน์โหลด
Parakeet V3	0.77s	~800 MB	465 MB
SenseVoice Small	0.81s	~700 MB	827 MB
Whisper Small	1.03s	~487 MB	600 MB
Whisper Large V3 Turbo	3.18s	~1.6 GB	3 GB

* เวลาโหลดและหน่วยความจำวัดบน Apple M4 Pro, 32 GB

SenseVoice โหลดภายในหนึ่งวินาทีและใช้หน่วยความจำน้อยกว่า Parakeet บน Mac 8 GB ทำงานได้สบายพร้อมกับแอปอื่น

ทำไม SenseVoice จึงเร็วกว่า: สถาปัตยกรรม + Runtime

ช่องว่างความเร็วระหว่าง Qwen3-ASR และ SenseVoice มาจากสองปัจจัยที่เป็นอิสระต่อกัน

ปัจจัยที่ 1: สถาปัตยกรรมโมเดล Qwen3-ASR เป็น autoregressive — สร้างโทเค็นทีละตัว แต่ละตัวขึ้นอยู่กับตัวก่อนหน้า SenseVoice ใช้ตัวเข้ารหัส non-autoregressive (NAR) ที่ประมวลผลเสียงทั้งหมดแบบขนาน ความแตกต่างทางสถาปัตยกรรมเพียงอย่างเดียวนี้ทำให้ SenseVoice เร็วกว่าโดยพื้นฐาน ไม่ว่าจะใช้ฮาร์ดแวร์อะไร

ปัจจัยที่ 2: Runtime การรวม Qwen3-ASR ใช้ sherpa-onnx ซึ่งทำงานบน CPU SenseVoice ทำงานผ่าน Apple MLX ส่งการคำนวณไปที่ GPU Qwen3 สามารถทำงานบน MLX ได้ไหม? ได้ — แต่ก็ยังจะช้ากว่า SenseVoice เพราะคอขวดของ autoregressive อยู่ที่สถาปัตยกรรม ไม่ใช่ runtime

	Qwen3-ASR (เก่า)	SenseVoice (ใหม่)
สถาปัตยกรรม	Autoregressive (ทีละโทเค็น)	Non-autoregressive (ขนาน)
Runtime	sherpa-onnx (CPU)	Apple MLX (GPU)
จีน 27 นาที	224 วินาที	13.83 วินาที
เร็วขึ้นรวม	ค่าฐาน	เร็วขึ้น 16.2 เท่า
โค้ดเบส	เฟรมเวิร์ก C 168 MB + Swift 2,249 บรรทัด	Swift Actor 288 บรรทัด

* พอดแคสต์จีน 27 นาทีเดียวกัน Apple M4 Pro การเร่งความเร็ว 16.2 เท่ารวมทั้งการปรับปรุงสถาปัตยกรรม (NAR vs AR) และ runtime (GPU vs CPU)

โค้ดก็ง่ายขึ้นด้วย การใช้งาน SenseVoice ใหม่เป็น Swift Actor เพียง 288 บรรทัดที่สื่อสารกับ MLX โดยตรง แทนที่เฟรมเวิร์ก C 168 MB โค้ดน้อยลง บั๊กน้อยลง แอปเล็กลง

ห้าภาษา ทำได้ดี

SenseVoice ไม่พยายามทำทุกอย่าง มันจัดการห้าภาษา:

ภาษา	SenseVoice-Small	Whisper-Large-V3	ผู้ชนะ
จีน (zh-CN)	10.78% CER	12.55% CER	SenseVoice (-14%)
กวางตุ้ง (yue)	7.09% CER	10.41% CER	SenseVoice (-32%)
ญี่ปุ่น (ja)	11.96% CER	10.34% CER	Whisper (เล็กน้อย)
เกาหลี (ko)	8.28% CER	5.59% CER	Whisper
อังกฤษ (en)	14.71% WER	9.39% WER	Whisper (ใช้ Parakeet ดีกว่า)

* เบนช์มาร์ก CommonVoice, CER = อัตราผิดพลาดตัวอักษร, WER = อัตราผิดพลาดคำ ยิ่งต่ำยิ่งดี แหล่งข้อมูล: บทความ FunAudioLLM (2024) เวลาแฝงการอนุมาน SenseVoice-Small: 70ms ต่อเสียง 10 วินาที (A800 GPU) เร็วกว่า Whisper-Large-V3 กว่า 15 เท่า

เปรียบเทียบความแม่นยำ SenseVoice vs Whisper บนเบนช์มาร์ก CommonVoice สำหรับจีน กวางตุ้ง อังกฤษ ญี่ปุ่น เกาหลี และอีก 25 ภาษา - กราฟแท่ง WER/CER

เบนช์มาร์ก CommonVoice: SenseVoice-Small (เหลือง) vs Whisper-Small (น้ำเงิน) vs Whisper-Large-V3 (ส้ม) ยิ่งต่ำยิ่งดี แหล่งข้อมูล: บทความ FunAudioLLM

ตัวเลขบอกเล่าเรื่องจริง SenseVoice ชนะ Whisper ในความแม่นยำภาษาจีนและกวางตุ้งอย่างมีนัยสำคัญ ขณะที่ Whisper แม่นยำกว่าสำหรับญี่ปุ่น เกาหลี และอังกฤษ แต่ SenseVoice เร็วกว่า Whisper-Large-V3 กว่า 15 เท่า ในการใช้งานจริง ความแตกต่างของความเร็วสำคัญกว่าความแม่นยำที่ต่างกันไม่กี่เปอร์เซ็นต์

ผลลัพธ์กวางตุ้งควรค่าแก่การเน้นย้ำเป็นพิเศษ Whisper-Small ได้ 38.97% CER สำหรับกวางตุ้ง — แทบใช้ไม่ได้ แม้แต่ Whisper-Large-V3 ก็ทำได้แค่ 10.41% SenseVoice ทำได้ 7.09% ก่อน SenseVoice ไม่มีวิธีที่ดีในการถอดเสียงกวางตุ้งบน Mac แบบออฟไลน์ หากคุณพูดกวางตุ้ง โมเดลนี้มีเพื่อคุณ

ผลลัพธ์การถอดเสียงเกาหลีด้วย SenseVoice ใน Whisper Notes สำหรับ Mac แสดงข้อความเกาหลีที่แม่นยำจากวิดีโอ

การถอดเสียงเกาหลีด้วย SenseVoice: นำเข้าวิดีโอพร้อมคำบรรยายที่มีเวลากำกับ

ทดสอบจริง: พอดแคสต์จีน 27 นาที

เราถอดเสียงตอนหนึ่ง 27 นาทีของ Thirteen Invitations (十三邀) พอดแคสต์สัมภาษณ์จีน ด้วยทั้ง SenseVoice และ Whisper Large V3 Turbo บน M4 Pro เครื่องเดียวกัน ใช้ ElevenLabs Scribe (คลาวด์) เป็นตัวอ้างอิง โมเดลทั้งสองบนเครื่องมีจำนวนข้อผิดพลาดใกล้เคียงกัน แต่ประเภทต่างกัน:

	SenseVoice	Whisper Large V3
เวลา	13.83s	2 min 4s
ข้อผิดพลาด (ตัวอย่าง 5 นาที)	~15–20	~12–15
ข้อผิดพลาดที่เลวร้ายที่สุด	时差→食堂 (เขตเวลา→โรงอาหาร)	西昌→西藏 (เมือง Xīchāng→ทิเบต, คลาดเคลื่อน 4,000 กม.)
รูปแบบข้อผิดพลาด	สลับคำพ้องเสียง	ข้อผิดพลาดทางภูมิศาสตร์/ข้อเท็จจริง

* เปรียบเทียบด้วยตนเองกับ ElevenLabs Scribe (อ้างอิงคลาวด์ ซึ่งก็ไม่สมบูรณ์แบบ) โมเดลทั้งสองบนเครื่องเขียน "根深蒂固" ถูกต้อง ขณะที่ Scribe ผิด

ความแม่นยำใกล้เคียงกัน เร็วกว่า 9 เท่า สำหรับการถอดเสียงจีนในสถานการณ์จริง SenseVoice ให้บทถอดเสียงที่ใช้ได้ก่อนที่ Whisper จะโหลดเสร็จ

เมื่อไหร่ควรใช้โมเดลไหน

Whisper Notes สำหรับ Mac มาพร้อมสี่โมเดลเสียง แต่ละโมเดลเหมาะสำหรับสถานการณ์ที่แตกต่างกัน:

คุณต้องการ...	ใช้โมเดลนี้	เหตุผล
อังกฤษหรือยุโรป ความเร็วสูงสุด	Parakeet V3	103× เรียลไทม์, อัตราข้อผิดพลาดต่ำสุด ค่าเริ่มต้น
จีน ญี่ปุ่น เกาหลี หรือกวางตุ้ง	SenseVoice Small	52–118× เรียลไทม์ โมเดลเดียวที่รองรับกวางตุ้ง
ภาษาใดก็ได้ใน 99+ (อาหรับ ไทย รัสเซีย ฯลฯ)	Whisper Large V3 Turbo	รองรับภาษามากที่สุด ช้ากว่าแต่ใช้ได้ทุกภาษา
ใช้หน่วยความจำน้อย (Mac รุ่นเก่า)	Whisper Small	487 MB หน่วยความจำ เหมาะกับ Mac 8 GB

ตัวเลือกโมเดล Whisper Notes Mac แสดง Parakeet V3, SenseVoice Small, Whisper Small และ Whisper Large V3 Turbo พร้อมขนาดดาวน์โหลดและภาษาที่รองรับ

การตั้งค่า → โมเดลถอดเสียง: เลือกเอนจิ้นที่เหมาะกับภาษาของคุณ

ตัวเลือกโมเดลในการตั้งค่าแสดงทั้งสี่ตัวเลือกพร้อมขนาดดาวน์โหลด จำนวนภาษา และข้อกำหนดหน่วยความจำ SenseVoice ดาวน์โหลดเมื่อใช้ครั้งแรก (~827 MB) และเก็บไว้บนเครื่อง

ข้อจำกัด

SenseVoice ไม่ใช่โมเดลสากล สิ่งที่ทำไม่ได้มีดังนี้:

• รองรับแค่ 5 ภาษา หากคุณต้องการภาษาไทย รัสเซีย อาหรับ ฮินดี หรือภาษาอื่นอีก 90+ ภาษาที่ Whisper รองรับ ให้ใช้ Whisper

• Mac เท่านั้น SenseVoice ทำงานผ่าน Apple MLX ซึ่งต้องใช้ macOS ไม่มีบน iPhone ผู้ใช้ iOS มี Parakeet (สำหรับภาษายุโรป) และ Whisper

• ปัญหาเสียงเบา ในช่วงที่สั้นมากหรือเบามาก SenseVoice อาจออกเป็นภาษาจีนโดยไม่สนใจภาษาที่เลือก การตั้งภาษาด้วยตนเอง (แทน "อัตโนมัติ") ช่วยลดปัญหานี้

• ไม่รองรับสตรีมมิ่ง ต่างจากโหมดสตรีมมิ่งของ Whisper SenseVoice ประมวลผลเสียงทั้งหมดหลังจากบันทึกเสร็จ สำหรับไฟล์ยาว มันจะตัดอัตโนมัติที่จุดเงียบและแสดงผลทีละส่วน

เหล่านี้คือข้อจำกัดทางสถาปัตยกรรม ไม่ใช่บั๊ก โมเดลที่ฝึกด้วย 5 ภาษาทำ 5 ภาษานั้นได้ดีมาก การรองรับ 99+ ภาษาของ Whisper มาพร้อมกับความเร็วที่ช้าลงและอัตราข้อผิดพลาดที่สูงขึ้นในแต่ละภาษา

ลองใช้งาน

SenseVoice มีใน Whisper Notes สำหรับ Mac v1.4.8 ขึ้นไป ดาวน์โหลดจาก การตั้งค่า → โมเดลถอดเสียง → SenseVoice Small (~827 MB) ต้องใช้ Mac Apple Silicon (M1 ขึ้นไป)

หากคุณใช้ Parakeet V3 และพิมพ์ด้วยเสียงเป็นภาษาอังกฤษเป็นหลัก ไม่จำเป็นต้องเปลี่ยน SenseVoice สำหรับเมื่อคุณต้องการจีน ญี่ปุ่น เกาหลี หรือกวางตุ้ง — และต้องการความเร็ว

ดาวน์โหลดสำหรับ Mac

บันทึกการเปลี่ยนแปลง: whispernotes.app/changelog

คำถามหรือข้อเสนอแนะ: mac@whispernotes.app