Parakeet V3가 Mac 기본 엔진으로 — Whisper보다 10배 빠름

2026년 3월 7일
·
6 min read
·Whisper Notes Team

버전 1.3.2부터 Mac용 Whisper Notes는 기본 음성 엔진으로 NVIDIA Parakeet TDT 0.6B를 탑재합니다. 영어 전사 속도가 Whisper Large V3 Turbo보다 10배 빠르고, 정확도도 더 높습니다. 다른 언어가 필요하시면 Whisper 모델도 여전히 사용할 수 있습니다.

기본 모델을 바꾼 이유

Whisper는 좋은 모델이지만, 본질적으로 범용 모델입니다. 100개 이상의 언어를 지원하고, 번역도 하고, 타임스탬프도 생성하는 만능 도구죠. 대신 속도를 희생합니다. 영어 받아쓰기처럼 빠르게 글자만 나오면 되는 상황에서는 너무 무겁습니다.

가장 답답했던 건 Fn 키로 시스템 전체 음성 입력을 사용할 때였습니다. 약 1분 정도 말하고 나면 전사 결과가 나타나기까지 3~5초를 기다려야 합니다. 이 대기 시간이 흐름을 완전히 끊어버립니다. 말을 끝냈는데 커서만 깜빡이고, 아무것도 나타나지 않는 그 순간 — 음성 입력의 매력이 사라집니다.

Parakeet는 이 문제를 완전히 해결했습니다. 말을 멈추는 순간 글자가 나타날 정도로 빠릅니다. 말하면 바로 글자가 거기에 있습니다. 이 느낌 — 끊김 없이 대기 시간 제로인 흐름 — 을 한번 경험하면 Whisper로 돌아가기 정말 어렵습니다.

Parakeet V3는 얼마나 빠른가

숫자로 보는 것이 가장 확실합니다. 같은 Mac에서 같은 35분짜리 오디오 파일을 처리한 결과입니다:

모델 35분 오디오
Whisper Large V3 Turbo 3분
Parakeet TDT 0.6B v3 18초

10배 빠릅니다. 게다가 모델 크기가 더 작아서(6억 vs 8억 파라미터) 메모리와 배터리 소모도 적습니다.

Parakeet v3가 이렇게 빠른 이유

Whisper는 오디오를 책을 소리 내어 읽듯 처리합니다 — 한 프레임씩, 한 단어씩, 절대 건너뛰지 않습니다. 무음 구간에서도 계속 처리하고, 다음 단어를 추측합니다. 꼼꼼하긴 하지만 느립니다.

Parakeet는 근본적으로 다른 접근 방식을 취합니다. 먼저 오디오 신호를 8배로 압축해서 중요한 정보만 남깁니다. 그다음 프레임을 하나씩 처리하는 대신, 어떤 단어를 말했는지뿐만 아니라 그 단어가 얼마나 오래 지속되는지까지 예측하고 바로 다음으로 건너뜁니다. 무음? 통째로 건너뜁니다. 긴 모음? 수십 번 반복하지 않고 한 번의 예측으로 끝냅니다.

결과적으로 사람의 뇌처럼 음성을 처리하는 모델이 만들어졌습니다 — 의미 있는 단어에 집중하고 빈 구간은 무시합니다. 더 적은 파라미터, 더 높은 정확도로 10배의 속도를 달성할 수 있는 이유입니다.

벤치마크: Parakeet v3 vs Whisper

단어 오류율 비교: Parakeet TDT 0.6B v3 vs Whisper Large V3 vs Seamless M4T, 여러 벤치마크 데이터셋에 걸친 결과

Parakeet v3는 FLEURS, CoVoST, MLS 벤치마크에서 파라미터 수 2~4배인 모델과 대등하거나 더 우수한 성능

Hugging Face Open ASR Leaderboard에서 Parakeet v3는 단 6억 파라미터로 1위를 차지했습니다. Whisper Large V3의 15.5억 파라미터의 절반도 안 됩니다:

모델 파라미터 수 평균 WER 속도 (RTFx)
Parakeet TDT 0.6B v3 0.6B 6.32% 3,333x
Canary 1B v2 1.0B 7.15% 749x
Whisper Large V3 1.55B 7.44% 146x
Whisper Large V3 Turbo 0.8B 7.6% 350x

WER이 낮을수록 오류가 적고, RTFx가 높을수록 빠릅니다. Parakeet는 두 항목 모두에서 이깁니다. 6억 파라미터는 이 목록에서 가장 작은 모델이기도 합니다 — Apple Silicon에서 매끄럽게 동작하며 메모리와 배터리 소모도 최소한입니다.

환각 현상과 작별

Whisper로 받아쓰기를 해보신 적이 있다면, 무음 구간에서 모델이 환각을 일으키는 것을 경험하셨을 겁니다. 문구를 반복하거나, 없는 단어를 만들어내거나, 갑자기 "Subtitles by Amara.org" 같은 엉뚱한 텍스트가 나타나죠. Whisper의 자기회귀 디코더가 전사할 내용이 없어도 항상 텍스트를 생성하려 하기 때문입니다.

NVIDIA는 36,000시간의 순수 비음성 오디오(배경 소음, 기침, 무음)로 Parakeet를 훈련시키면서 목표 출력을 모두 빈 문자열로 설정했습니다. 모델은 침묵이 어떤 것인지 학습하고, 아무도 말하지 않을 때 조용히 있습니다. "항시 켜짐" 상태의 시스템 전체 받아쓰기에서 이것은 획기적인 변화입니다 — 생각하느라 잠시 멈춰도 화면에 엉뚱한 텍스트가 나타나지 않습니다.

Parakeet가 지원하는 언어

Parakeet v3는 25개 언어를 지원합니다: 불가리아어, 크로아티아어, 체코어, 덴마크어, 네덜란드어, 영어, 에스토니아어, 핀란드어, 프랑스어, 독일어, 그리스어, 헝가리어, 이탈리아어, 라트비아어, 리투아니아어, 몰타어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 슬로바키아어, 슬로베니아어, 스페인어, 스웨덴어, 우크라이나어.

유럽 대부분을 커버하지만, 중국어, 일본어, 한국어, 아랍어, 힌디어는 지원하지 않습니다. 그래서 Whisper 모델을 다운로드 가능한 옵션으로 남겨두었습니다. 일본어나 중국어로 받아쓰기를 하신다면 모델 선택기에서 Whisper Large V3 Turbo를 선택하세요. 영어와 유럽 언어라면 Parakeet v3가 확실히 더 나은 엔진입니다.

Whisper Notes Mac 모델 선택기. Parakeet V3가 기본 모델이며, Whisper Small과 Whisper Large V3 Turbo가 다운로드 가능한 옵션으로 표시

모델 선택기: Parakeet V3(기본), Whisper Small, Whisper Large V3 Turbo — 모두 로컬에서 실행

Whisper Notes의 모델 선택기

설정을 열어 모델을 전환할 수 있습니다:

  • Parakeet V3(기본) — 가장 빠름, 영어 및 유럽 언어에 최적
  • Whisper Small — 경량, 100개 이상의 언어 지원
  • Whisper Large V3 Turbo — 다국어 최고 정확도 모델

모든 모델은 Mac에서 100% 로컬로 실행됩니다. 인터넷 불필요, 클라우드 불필요, 데이터가 기기 밖으로 나가지 않습니다.

직접 사용해 보세요

Parakeet v3는 지금 Mac 버전에서 바로 사용할 수 있습니다 — 최신 DMG를 다운로드하시면 됩니다. 사용자 피드백이 좋으면 향후 업데이트에서 iOS 버전에도 Parakeet를 탑재할 예정입니다.

질문이나 피드백이 있으시면 support@whispernotes.app으로 이메일을 보내주세요.