Mac 오프라인 회의 전사: Zoom, Teams & Meet를 로컬에서 녹음

2026년 5월 13일
·
8 min read
·Whisper Notes Team

Mac용 오프라인 회의 녹취를 만들었습니다. Zoom, Teams, Google Meet 통화를 녹음하고, Parakeet V3로 로컬에서 텍스트로 변환하고, Gemma 4로 요약합니다. 클라우드 없음, 통화에 봇 없음. $6.99 일회성 구매.

Whisper Notes가 Mac에서 Zoom 회의를 녹음하며, 실시간 녹취에 '나'와 '상대방' 화자 라벨 표시

Whisper Notes에서 Zoom 통화 녹음 중 — 오디오 소스에 따라 "나"와 "상대방"이 라벨링됨

평범한 월요일

오전 10시, 고객과 Zoom 미팅. Whisper Notes를 열고 녹음 버튼을 누릅니다. 앱이 시스템 오디오와 마이크를 동시에 캡처합니다. 회의에 봇이 들어오지 않고, 아무에게도 알림이 가지 않으며, 참가자 목록에 아무것도 나타나지 않습니다.

1시간 후, 통화가 끝납니다. 녹음을 중지합니다. Parakeet V3가 60분 분량의 오디오를 약 1분 만에 텍스트로 변환합니다. 전부 Mac의 Neural Engine에서 처리됩니다. 요약을 탭하면 Gemma 4가 핵심 내용을 추출합니다. 액션 아이템을 탭하면 언급된 모든 과제와 마감일이 나옵니다. 회의록을 고객에게 보냅니다. 오디오는 한 번도 기기 밖으로 나가지 않았습니다.

워크플로우는 이게 전부입니다. 녹음, 텍스트 변환, 요약. 전부 로컬.

기능

녹음

Whisper Notes는 시스템 오디오를 캡처합니다. 스피커나 헤드폰에서 나오는 소리, 즉 Mac에서 들을 수 있는 모든 소리를 녹취할 수 있습니다. Zoom, Teams, Google Meet, Webex, GoTo, Whereby, Jitsi, YouTube, 팟캐스트 등 어떤 앱이든 가능합니다. 동시에 마이크도 녹음하므로 대화의 양쪽이 모두 기록됩니다.

통화에 봇이 참여하지 않습니다. 이건 생각보다 중요한 문제입니다. Zoom 통화에서 "Otter.ai Notetaker has joined the meeting"이 뜨는 걸 본 적이 있다면, 다음에 무슨 일이 벌어지는지 아실 겁니다. 누군가 그게 뭐냐고 물어보고, 누군가는 불편해하고, 대화 분위기가 달라집니다. 시스템 오디오 캡처를 쓰면, 녹음하고 있다는 걸 아는 건 본인뿐입니다.

텍스트 변환

Parakeet V3는 CoreML을 통해 Apple Silicon에서 구동됩니다. 영어와 24개 유럽 언어를 실시간 대비 약 60배 속도로 처리하여, 60분 회의가 약 1분이면 끝납니다. 중국어, 일본어, 한국어의 경우 SenseVoice가 CJK를 52배 속도로 처리합니다. Pyannote VAD가 텍스트 변환 전에 무음 구간을 제거하여, 모델이 실제 음성만 처리합니다.

Whisper Notes Mac 녹취 화면. 타임스탬프와 오디오 파형이 있는 인라인 텍스트 편집

타임스탬프와 인라인 편집이 있는 녹취록 — 임의의 세그먼트를 클릭하면 해당 오디오 위치로 이동

AI 기능 — 전부 로컬

Gemma 4는 Mac에서 구동됩니다. API 키 불필요, 클라우드 연결 불필요, 사용량 제한 없음. 텍스트 변환 후:

  • 요약 — 60분 회의의 핵심 포인트를 수 초 만에 추출
  • 액션 아이템 — 과제와 마감일을 자동 추출
  • 번역 — Apple Intelligence가 녹취록을 다른 언어로 번역
  • 채팅 — "가격에 대해 뭘 합의했지?"라고 물으면, 녹취 내용에 기반한 답변을 받을 수 있음
Whisper Notes AI 어시스턴트 사이드바. 요약, 액션 아이템, 번역 버튼과 채팅 인터페이스

Gemma 4 AI 사이드바 — 요약, 액션 아이템, 번역, 자유 채팅, 모두 로컬에서 실행

왜 이렇게 만들었나

회의 오디오는 기업이 만들어내는 데이터 중 가장 민감한 것 중 하나입니다. 고객 협상, 인사 면담, 이사회 논의, 법률 상담 — 한 번의 유출로 커리어가 끝날 수 있는 대화들입니다.

대부분의 녹취 도구는 이 오디오를 클라우드 서버에 업로드하고, 거기서 처리한 뒤, 자체 데이터 보존 정책에 따라 저장합니다. 통화에 참가자 모두가 볼 수 있는 봇을 넣는 서비스도 있습니다. "모델 개선"을 위해 녹음을 무기한 보관하는 곳도 있습니다.

우리는 다른 접근법을 택했습니다. 모든 것이 Mac에서 실행됩니다. ASR 모델, LLM, 오디오 저장 — 전부 로컬입니다. 침해당할 서버가 없고, 읽어야 할 데이터 보존 정책이 없으며, 제3자 소환장 위험이 없습니다. GDPR, HIPAA, 변호사-의뢰인 비밀유지 의무 대상 팀에게는, 이 아키텍처 자체가 핵심입니다.

비교

Whisper Notes Otter.ai Fireflies Jamie
처리 방식 100% 온디바이스 클라우드 클라우드 하이브리드
통화 중 봇 없음 있음 있음 없음
가격 $6.99 일회성 $16.99/mo (Pro) from $18/mo $24/mo
오프라인 작동 지원 미지원 미지원 부분 지원
AI 요약 로컬 (Gemma 4) 클라우드 클라우드 클라우드
화자 분리 미지원 지원 지원 지원

회의마다 다른 언어

회의 언어에 맞는 모델을 선택하세요:

영어 / 유럽어 Parakeet V3 — 실시간 대비 ~60배, 6.32% WER, 무음 시 환각 제로
중국어 / 일본어 / 한국어 SenseVoice — 52배 속도, 광둥어 지원, MLX GPU 가속
기타 언어 Whisper Large V3 Turbo — 99개 언어, 높은 정확도, 느린 속도

아직 부족한 것

아직 화자 분리를 지원하지 않습니다. 현재 Whisper Notes는 오디오를 "나"(마이크)와 "상대방"(시스템 오디오)으로 구분합니다. 1:1이나 소규모 회의에는 충분하지만, 10명이 참여하는 통화에서 누가 무슨 말을 했는지 알아야 한다면 부족합니다.

당연히 다음 단계이며, 현재 개발 중입니다. 목표는 Parakeet V3, SenseVoice와 함께 로컬에서 구동되는 화자 분리입니다. 오디오를 어디로도 보낼 필요가 없습니다.