Whisper 음성 인식 완벽 가이드 — API, 앱, 오프라인 사용법 (2026)

2026년 7월 2일
·
9 min read
·Whisper Notes Team

Whisper 음성 인식이란 OpenAI의 Whisper로 음성을 텍스트로 변환하는 것을 말합니다. Whisper는 오픈소스 AI 모델이라 클라우드, 서버, 그리고 내 기기 안에서 완전히 로컬로도 돌릴 수 있습니다. 이 가이드에서는 Whisper의 작동 원리, 어떤 모델 크기를 골라야 하는지, 실제 정확도는 어느 정도인지, 그리고 Mac과 iPhone에서 오프라인으로 가장 빠르게 받아쓰기하는 방법까지 다룹니다.

Whisper란 정확히 무엇인가?

Whisper는 OpenAI가 2022년 9월 MIT 라이선스로 공개한 자동 음성 인식(ASR) 모델입니다. 68만 시간이 넘는 다국어 오디오로 학습된 인코더-디코더 트랜스포머로, 약 100개 언어의 음성 인식과 영어 번역을 지원합니다.

사용자 입장에서 정말 중요한 건 이 부분입니다: 모델 가중치가 공개되어 있다는 것. 구글이나 아마존의 음성 API와 달리 Whisper는 남의 서버에서 돌 필요가 없습니다. whisper.cpp, faster-whisper, 그리고 Whisper Notes 같은 네이티브 앱까지, 로컬 실행을 위한 생태계가 통째로 존재합니다. 진짜 오프라인, 진짜 프라이빗한 받아쓰기가 가능한 이유입니다.

Whisper 모델 크기: 어떤 걸 써야 할까?

Whisper는 여섯 가지 주요 크기로 제공됩니다. 클수록 정확하지만 느려집니다:

모델 파라미터 속도 추천 용도
tiny 39M 가장 빠름 초안 작성, 사양이 낮은 기기
base 74M 매우 빠름 단순하고 깨끗한 오디오
small 244M 빠름 모바일에서 속도와 정확도의 균형
medium 769M 보통 요즘은 굳이 고를 이유가 없음
large-v3 1.55B 가장 느림 최고 정확도, 까다로운 오디오
large-v3-turbo 809M large-v3보다 약 5배 빠름 2026년의 기본 선택지

거의 모든 사용자에게 정답은 large-v3-turbo입니다. large-v3의 인코더는 그대로 유지하면서 디코더 레이어를 32개에서 4개로 줄여, 훨씬 적은 연산으로 거의 동일한 정확도를 냅니다. 자세한 벤치마크는 Whisper Large V3 Turbo vs V3에서 확인하세요.

Whisper 음성 인식의 정확도는 어느 정도일까?

깨끗한 영어 오디오 기준으로 large 계열 모델의 단어 오류율(WER)은 대략 5~8%입니다. 실사용 목적으로는 전문 속기사와 견줄 만한 수준입니다. 다만 배경 소음, 심한 사투리, 말이 겹치는 구간, 학습 데이터가 적은 언어에서는 정확도가 떨어집니다.

Whisper의 유명한 약점이 하나 있습니다: 무음 구간의 환각(hallucination). 자기회귀 디코더 특성상, 아무도 말하지 않는 구간에서 같은 문장을 반복하거나 자막 크레딧 같은 문구를 지어내는 경우가 있습니다. 최신 모델들은 이 문제를 고쳤습니다. NVIDIA의 Parakeet V3는 비음성 오디오까지 명시적으로 학습해, 저희 테스트에서 환각이 전혀 발생하지 않았습니다 (Parakeet V3 vs Whisper 벤치마크 전문).

한국어, 중국어, 일본어, 광둥어라면 속도와 문장부호 모두에서 Whisper를 능가하는 특화 모델이 있습니다: SenseVoice vs Whisper, CJK 언어 비교를 참고하세요.

Whisper 받아쓰기를 실행하는 5가지 방법

방법 비용 프라이버시 설정 난이도
OpenAI API 분당 $0.006 과금 오디오 업로드됨 API 키 + 코드
openai-whisper (공식 Python) 무료 100% 로컬 Python 환경, GPU 권장
whisper.cpp / faster-whisper 무료 100% 로컬 커맨드라인
네이티브 앱 (Whisper Notes) $6.99 1회 결제, Mac 무료 체험 100% 온디바이스 없음
웹 데모 도구 무료 티어 있음 오디오 업로드됨 없음

선택 기준은 간단합니다. 터미널이 익숙하다면 faster-whisper가 훌륭합니다. 제품을 개발 중이라면 API가 합리적입니다. Python은 건드리기 싫고 그냥 녹음을 프라이빗하게 텍스트로 바꾸고 싶다면 네이티브 앱을 쓰세요 — Mac용 Whisper 앱이 존재하는 이유가 바로 그것입니다.

Windows와 Android까지 포함해 오프라인 도구를 더 넓게 비교하고 싶다면 오프라인 음성 인식 완벽 가이드를 참고하세요.

Whisper vs 최신 로컬 모델 (2026)

로컬 음성 인식 시대를 연 것은 Whisper지만, 이제 혼자가 아닙니다. 아래 속도는 M4 Pro Mac에서 측정한 값입니다:

모델 지원 언어 속도 특징
Whisper Large V3 Turbo 100+ 실시간의 약 12배 가장 넓은 언어 커버리지
Parakeet V3 25개 (유럽 언어) 실시간의 약 100배 WER 6.32%, 무음 환각 없음
SenseVoice Small 한국어, 중국어, 일본어, 광둥어, 영어 실시간의 약 52배 한국어·중국어·일본어 최강

세 모델 모두 Whisper Notes 안에서 로컬로 실행되며, 녹음마다 다른 모델로 전환할 수 있습니다. 나란히 비교한 벤치마크는 Whisper 모델 비교 페이지에 있습니다.

Mac과 iPhone에서 Whisper 음성 인식을 오프라인으로 쓰는 법

커맨드라인 없이, Python 없이, 클라우드 없이:

  1. Mac용 Whisper Notes(무료 체험) 또는 iPhone용($6.99 1회 결제)을 다운로드합니다.
  2. 모델을 선택합니다: 폭넓은 언어 지원은 Whisper Large V3 Turbo, 영어 속도는 Parakeet V3, 한국어·중국어·일본어는 SenseVoice. 한 번만 다운로드하면 이후 영원히 오프라인으로 작동합니다.
  3. 앱에서 바로 녹음하거나, Fn 키를 눌러 시스템 어디서든 받아쓰기하거나, 오디오·비디오 파일(MP3, WAV, M4A, MP4)을 끌어다 놓습니다.
  4. 처리되는 대로 텍스트가 실시간으로 흘러나옵니다. TXT 또는 SRT로 내보낼 수 있습니다.

"오프라인"이라는 말이 의심스럽다면 먼저 비행기 모드를 켜 보세요. 받아쓰기는 전속력으로 돌아갑니다 — 그 무엇도, 절대 업로드되지 않습니다.

한국어 받아쓰기라면: SenseVoice가 52배 빠릅니다

한국어 사용자에게는 Whisper보다 나은 선택지가 있습니다. Whisper Notes에 내장된 SenseVoice는 한국어·중국어·일본어·광둥어에 특화된 모델로, Apple MLX 프레임워크 위에서 실시간의 약 52배 속도로 돌아갑니다. 1시간짜리 녹음이 1분 남짓이면 텍스트가 됩니다. 문장부호 처리도 한국어에서 Whisper보다 자연스럽습니다.

모델 한국어 처리 속도 비고
Whisper Large V3 Turbo 실시간의 약 12배 100개 이상 언어, 약 1.5GB
SenseVoice 실시간의 약 52배 한국어·중국어·일본어·광둥어 특화

회의가 잦다면 이렇게 쓰세요: 회의를 녹음하고, SenseVoice로 몇 분 만에 전문을 변환한 뒤, 그 텍스트를 즐겨 쓰는 AI에 붙여 넣어 AI 회의록과 액션 아이템을 뽑아냅니다. 오디오는 단 1초도 기기 밖으로 나가지 않습니다.

자주 묻는 질문

Whisper 음성 인식은 무료인가요?

모델 자체는 무료 오픈소스입니다(MIT 라이선스). whisper.cpp 같은 커맨드라인 도구로 돌리면 비용은 들지 않지만 설정이 필요합니다. OpenAI API는 오디오 분당으로 과금합니다. 네이티브 앱은 모델을 패키징해 소액을 받습니다 — Whisper Notes는 $6.99 1회 결제이고, Mac에서는 무료 체험이 가능합니다.

Whisper 받아쓰기, 오프라인에서도 되나요?

됩니다 — 그게 바로 오픈 가중치의 존재 이유입니다. 모델 파일이 기기에 내려받아지면 인터넷은 필요 없습니다. Whisper Notes는 Apple Silicon에서 CoreML/Metal을 통해 Whisper Large V3 Turbo를 완전히 오프라인으로 실행합니다. 비행기 모드로 직접 검증할 수 있습니다.

Whisper 모델 중 가장 정확한 것은 무엇인가요?

순수 정확도는 large-v3가 최고입니다. large-v3-turbo는 WER 기준 소수점 차이로 이를 따라잡으면서 약 5배 빠르게 돌아가기 때문에, 오늘날 대부분의 도구에서 기본값이 되었습니다.

Whisper 한국어 인식, 잘 되나요?

Whisper는 약 100개 언어를 지원하며 한국어도 그중 하나입니다. 다만 한국어·중국어·일본어·광둥어라면 SenseVoice가 문장부호를 더 자연스럽게 처리하면서 Apple Silicon에서 훨씬 빠른 속도(실시간의 약 52배)를 냅니다. Whisper Notes 안에서 두 모델을 자유롭게 전환할 수 있습니다.

아이폰에서 쓸 수 있는 Whisper 받아쓰기 앱이 있나요?

있습니다. Whisper Notes는 iPhone의 Neural Engine에 최적화된 Whisper 모델을 실행합니다(iPhone 12 이상). 녹음하거나 음성 메모·파일 앱에서 가져와 전부 온디바이스로 변환합니다. $6.99 1회 결제, 구독 없음.