การถอดเสียงด้วย Whisper คือการแปลงเสียงพูดเป็นข้อความด้วย Whisper ของ OpenAI — โมเดล AI แบบโอเพนซอร์สที่รันได้ทั้งบนคลาวด์ บนเซิร์ฟเวอร์ หรือทั้งหมดบนอุปกรณ์ของคุณเอง คู่มือนี้จะพาไปดูว่า Whisper ทำงานอย่างไร ควรเลือกโมเดลขนาดไหน แม่นยำจริงแค่ไหน และวิธีที่เร็วที่สุดในการรันแบบออฟไลน์บน Mac หรือ iPhone
Whisper คืออะไรกันแน่?
Whisper คือโมเดลรู้จำเสียงพูดอัตโนมัติ (ASR) ที่ OpenAI ปล่อยออกมาในเดือนกันยายน 2022 ภายใต้สัญญาอนุญาต MIT เป็น transformer แบบ encoder-decoder ที่ฝึกด้วยเสียงหลายภาษากว่า 680,000 ชั่วโมง รองรับการถอดเสียงราว 100 ภาษา พร้อมแปลเป็นภาษาอังกฤษ
ส่วนที่สำคัญกับคุณ: น้ำหนักโมเดลเปิดเป็นสาธารณะ ต่างจาก API เสียงของ Google หรือ Amazon ตรงที่ Whisper ไม่จำเป็นต้องรันบนเซิร์ฟเวอร์ของใคร มีระบบนิเวศทั้งชุดสำหรับรันแบบโลคัล — whisper.cpp, faster-whisper และแอปเนทีฟอย่าง Whisper Notes นี่คือสิ่งที่ทำให้การถอดเสียงแบบออฟไลน์และเป็นส่วนตัวอย่างแท้จริงเป็นไปได้
ขนาดโมเดล Whisper: ควรใช้ตัวไหน
Whisper มีหกขนาดหลัก ยิ่งใหญ่ยิ่งแม่นยำแต่ก็ยิ่งช้า:
| โมเดล | พารามิเตอร์ | ความเร็ว | เหมาะที่สุดสำหรับ |
|---|---|---|---|
| tiny | 39M | เร็วที่สุด | ร่างข้อความด่วน ฮาร์ดแวร์สเปกต่ำ |
| base | 74M | เร็วมาก | เสียงเรียบง่าย ชัดเจน |
| small | 244M | เร็ว | สมดุลความเร็ว-ความแม่นยำที่ดีบนมือถือ |
| medium | 769M | ปานกลาง | ทุกวันนี้แทบไม่ใช่ตัวเลือกที่ใช่ |
| large-v3 | 1.55B | ช้าที่สุด | ความแม่นยำสูงสุด เสียงที่ถอดยาก |
| large-v3-turbo | 809M | เร็วกว่า large-v3 ~5 เท่า | ตัวเลือกมาตรฐานของปี 2026 |
สำหรับแทบทุกคน คำตอบคือ large-v3-turbo: มันคง encoder ของ large-v3 ไว้ แต่ลดชั้น decoder จาก 32 เหลือ 4 ให้ความแม่นยำเกือบเท่าเดิมด้วยพลังประมวลผลเพียงเศษเสี้ยว เราทำ benchmark อย่างละเอียดไว้ใน Whisper Large V3 Turbo vs V3
การถอดเสียงด้วย Whisper แม่นยำแค่ไหน?
กับเสียงภาษาอังกฤษที่ชัดเจน โมเดลขนาดใหญ่ทำอัตราความผิดพลาดของคำ (WER) ได้ราว 5-8% — เทียบเท่าการถอดเสียงโดยมืออาชีพสำหรับการใช้งานจริงส่วนใหญ่ ความแม่นยำจะลดลงเมื่อมีเสียงรบกวนพื้นหลัง สำเนียงจัด เสียงพูดซ้อนกัน และภาษาที่มีข้อมูลฝึกน้อย
จุดอ่อนอันโด่งดังของ Whisper: อาการหลอน (hallucination) ช่วงเงียบ decoder แบบ autoregressive ของมันบางครั้งแต่งวลีซ้ำ ๆ หรือเครดิตซับไตเติลขึ้นมาเองตอนไม่มีใครพูด โมเดลรุ่นใหม่แก้ปัญหานี้แล้ว — Parakeet V3 ของ NVIDIA ถูกฝึกด้วยเสียงที่ไม่มีคำพูดโดยเฉพาะ และไม่สร้างอาการหลอนเลยในการทดสอบของเรา (benchmark ฉบับเต็ม Parakeet V3 vs Whisper)
สำหรับภาษาจีน ญี่ปุ่น เกาหลี และกวางตุ้ง มีโมเดลเฉพาะทางที่ชนะ Whisper ทั้งความเร็วและเครื่องหมายวรรคตอน: ดู SenseVoice vs Whisper สำหรับภาษา CJK
5 วิธีรันการถอดเสียงด้วย Whisper
| วิธี | ค่าใช้จ่าย | ความเป็นส่วนตัว | การติดตั้ง |
|---|---|---|---|
| OpenAI API | จ่ายตามนาทีเสียง | เสียงถูกอัปโหลด | API key + โค้ด |
| openai-whisper (Python ต้นฉบับ) | ฟรี | โลคัล 100% | สภาพแวดล้อม Python แนะนำให้มี GPU |
| whisper.cpp / faster-whisper | ฟรี | โลคัล 100% | คอมมานด์ไลน์ |
| แอปเนทีฟ (Whisper Notes) | $6.99 จ่ายครั้งเดียว ทดลองฟรีบน Mac | 100% บนอุปกรณ์ | ไม่ต้องติดตั้งอะไร |
| เครื่องมือเดโมบนเว็บ | มีแพ็กเกจฟรี | เสียงถูกอัปโหลด | ไม่ต้องติดตั้งอะไร |
กฎง่าย ๆ: ถ้าคุณใช้ชีวิตอยู่ในเทอร์มินัล faster-whisper ยอดเยี่ยม ถ้ากำลังสร้างโปรดักต์ API ก็สมเหตุสมผล แต่ถ้าแค่อยากถอดเสียงบันทึกของตัวเองแบบส่วนตัวโดยไม่ต้องแตะ Python ให้ใช้แอปเนทีฟ — นั่นคือเหตุผลทั้งหมดที่ แอป Whisper สำหรับ Mac ถือกำเนิดขึ้น
อยากสำรวจเครื่องมือออฟไลน์ให้กว้างขึ้น — รวมถึงตัวเลือกบน Windows และ Android? อ่านคู่มือแปลงเสียงเป็นข้อความแบบออฟไลน์ฉบับสมบูรณ์ของเรา
Whisper vs โมเดลโลคัลรุ่นใหม่กว่า (2026)
Whisper เปิดยุคการถอดเสียงแบบโลคัล แต่ตอนนี้มันไม่ได้อยู่ลำพังแล้ว ความเร็วด้านล่างวัดบน Mac ชิป M4 Pro:
| โมเดล | ภาษา | ความเร็ว | จุดเด่น |
|---|---|---|---|
| Whisper Large V3 Turbo | 100+ | ~12 เท่าของเรียลไทม์ | ครอบคลุมภาษากว้างที่สุด |
| Parakeet V3 | 25 (ยุโรป) | ~100 เท่าของเรียลไทม์ | WER 6.32% ไม่มีอาการหลอนช่วงเงียบ |
| SenseVoice Small | zh, ja, ko, yue, en | ~52 เท่าของเรียลไทม์ | ดีที่สุดสำหรับจีน ญี่ปุ่น เกาหลี |
ทั้งสามโมเดลรันแบบโลคัลใน Whisper Notes และสลับได้ต่อการบันทึกแต่ละครั้ง ดู benchmark แบบเทียบกันตรง ๆ ได้ที่หน้าเปรียบเทียบโมเดล Whisperของเรา
วิธีรันการถอดเสียงด้วย Whisper แบบออฟไลน์บน Mac และ iPhone
ไม่มีคอมมานด์ไลน์ ไม่มี Python ไม่มีคลาวด์:
- ดาวน์โหลด Whisper Notes สำหรับ Mac (ทดลองฟรี) หรือ สำหรับ iPhone ($6.99 จ่ายครั้งเดียว)
- เลือกโมเดล: Whisper Large V3 Turbo สำหรับครอบคลุมหลายภาษา (รวมภาษาไทย), Parakeet V3 สำหรับความเร็วภาษาอังกฤษ, SenseVoice สำหรับ CJK โมเดลดาวน์โหลดครั้งเดียวแล้วใช้งานออฟไลน์ได้ตลอดไป
- อัดเสียงโดยตรง สั่งพิมพ์ด้วยเสียงทั่วทั้งระบบโดยกด Fn ค้าง หรือวางไฟล์เสียงและวิดีโอ (MP3, WAV, M4A, MP4)
- ข้อความจะทยอยขึ้นระหว่างประมวลผล ส่งออกเป็น TXT หรือ SRT ได้
ยังไม่เชื่อคำว่า "ออฟไลน์"? เปิดโหมดเครื่องบินก่อนเลย การถอดเสียงยังวิ่งเต็มความเร็ว — ไม่มีอะไรถูกอัปโหลดเด็ดขาด
การถอดเสียงด้วย Whisper ภาษาไทยแม่นแค่ไหน? ควรเลือกโมเดลไหน?
สำหรับภาษาไทย ให้เลือก Whisper Large V3 Turbo — โมเดลที่ครอบคลุมกว่า 100 ภาษา รวมถึงภาษาไทย ขนาดราว 1.5GB ส่วน Parakeet V3 (ค่าเริ่มต้น รองรับ 25 ภาษายุโรป) และ SenseVoice (เฉพาะจีน ญี่ปุ่น เกาหลี) ไม่รองรับภาษาไทย ดังนั้น Turbo คือคำตอบที่ถูกต้อง ใน Whisper Notes ดาวน์โหลดโมเดลเพียงครั้งเดียว แล้วถอดเสียงภาษาไทยได้แบบออฟไลน์ทั้งหมดบน Mac หรือ iPhone — ไฟล์เสียงของคุณไม่ออกจากอุปกรณ์เลย พูดให้ชัดและลดเสียงรบกวนพื้นหลังเพื่อผลลัพธ์ที่ดีที่สุด
คำถามที่พบบ่อย
การถอดเสียงด้วย Whisper ฟรีไหม?
ตัวโมเดลฟรีและโอเพนซอร์ส (สัญญาอนุญาต MIT) รันผ่านเครื่องมือคอมมานด์ไลน์อย่าง whisper.cpp ไม่มีค่าใช้จ่ายแต่ต้องติดตั้งเอง API ของ OpenAI คิดเงินตามนาทีเสียง แอปเนทีฟแพ็กโมเดลมาให้ด้วยค่าธรรมเนียมเล็กน้อย — Whisper Notes ราคา $6.99 จ่ายครั้งเดียว พร้อมทดลองฟรีบน Mac
Whisper ถอดเสียงแบบออฟไลน์ได้ไหม?
ได้ — นั่นคือประเด็นของน้ำหนักโมเดลแบบเปิด เมื่อไฟล์โมเดลอยู่บนอุปกรณ์แล้ว ไม่ต้องใช้อินเทอร์เน็ตอีก Whisper Notes รัน Whisper Large V3 Turbo บน Apple Silicon ผ่าน CoreML/Metal แบบออฟไลน์เต็มรูปแบบ ตรวจสอบได้ด้วยโหมดเครื่องบิน
โมเดล Whisper ตัวไหนแม่นยำที่สุด?
large-v3 มีความแม่นยำดิบดีที่สุด ส่วน large-v3-turbo ตามหลังเพียงเศษเสี้ยวเปอร์เซ็นต์ของ WER แต่เร็วกว่าราว 5 เท่า จึงเป็นค่าเริ่มต้นของเครื่องมือส่วนใหญ่ในปัจจุบัน
Whisper รองรับภาษาของฉันไหม?
Whisper ครอบคลุมราว 100 ภาษา แข็งแรงที่สุดกับภาษาที่มีข้อมูลมาก (อังกฤษ สเปน เยอรมัน ฝรั่งเศส ฯลฯ) สำหรับจีน ญี่ปุ่น เกาหลี และกวางตุ้ง SenseVoice ให้เครื่องหมายวรรคตอนดีกว่าและเร็วกว่ามากบน Apple Silicon
มีแอปถอดเสียง Whisper สำหรับ iPhone ไหม?
มี Whisper Notes รันโมเดล Whisper ที่ปรับแต่งสำหรับ Neural Engine ของ iPhone (iPhone 12 ขึ้นไป) — อัดเสียง นำเข้าจาก Voice Memos หรือ Files แล้วถอดเสียงบนอุปกรณ์ทั้งหมดในราคา $6.99 ไม่มีค่าสมาชิกรายเดือน