음성의 프라이버시: 로컬 아키텍처를 선택한 이유
편리함과 통제 사이에서 타협할 필요가 없습니다.
음성 메모는 특별합니다
음성 메모는 종종 정리되지 않고, 필터링되지 않으며, 개인적입니다. 형성 중인 생각들—다듬어지기 전의 아이디어, 소화되기 전의 좌절감, 구조화되기 전의 관찰—을 포착합니다. 바로 그 날것의 상태가 가치 있는 것입니다.
잘 다듬어진 문서와는 느낌이 다릅니다. 그 느낌이 중요합니다.
음성 메모를 녹음할 때, 대부분 자기 자신에게 말하고 있습니다. 그 순간의 친밀함—완성되지 않은 문장들, 옆길로 새는 이야기들, 방어 없는 솔직함—은 기술적 처리에서도 일정한 존중을 받아야 합니다.
디지털 위생의 문제
당신의 목소리는 고유한 생체 인식 식별자입니다. 비밀번호와 달리 재설정할 수 없습니다. 신용카드 번호와 달리 새로 발급받을 수 없습니다. 이것은 공포를 조성하려는 것이 아닙니다—단지 음성 데이터의 특성으로 인식할 가치가 있는 것입니다.
대부분의 일상적인 녹음에 대해 클라우드 처리는 전혀 문제없습니다. 하지만 민감한 콘텐츠—개인적인 성찰, 직업적 메모, 클라이언트 대화—의 경우, 원본 오디오 파일을 클라우드에서 멀리 두는 것은 단순히 좋은 디지털 위생입니다. 비밀번호를 평문으로 저장하지 않는 것과 같은 원칙입니다: 재난이 임박해서가 아니라, 사려 깊은 아키텍처가 문제가 발생하기 전에 예방하기 때문입니다.
우리는 이 원칙을 중심으로 Whisper Notes를 구축했습니다. 당신의 오디오는 당신의 기기에 머무릅니다—클라우드 서비스가 위험하다고 생각해서가 아니라, 당신에게 선택권이 있어야 한다고 믿기 때문입니다.
아키텍처
Whisper Notes는 OpenAI의 Whisper 음성 인식 모델을 당신의 하드웨어에서 직접 실행합니다. 서버 구성 요소가 없습니다. 녹음은 로컬에서 처리되며 어디로도 전송되지 않습니다.
각 기기의 역량에 맞게 플랫폼별로 구현이 다릅니다:
Mac: Whisper Large-v3 Turbo
Mac에서는 Whisper Large-v3 Turbo—Apple Silicon에 최적화된 15억 파라미터 모델—을 실행합니다. 적절한 구두점과 지능적인 단락 포맷팅으로 클라우드 전사 서비스에 버금가는 정확도를 제공합니다.
처리 속도는 칩에 따라 다릅니다: M4 기기는 대략 12배 실시간, M1 칩은 대략 8배 실시간으로 작동합니다.
iPhone: 모바일 최적화 Whisper 모델
모바일 기기는 다른 제약이 있습니다—열 한계, 배터리 수명, 메모리 대역폭. 우리는 A 시리즈와 M 시리즈 칩의 Neural Engine에 맞춰 조정된 모바일 최적화 Whisper 모델을 배포합니다.
Mac 모델보다 작지만, 표준 받아쓰기를 일관되게 능가하는 구조화되고 구두점이 있는 텍스트를 제공합니다. 트레이드오프는 솔직합니다: 긴 녹음의 최대 정확도를 위해서는 Mac에서 처리하세요. 빠른 캡처에는 모바일 모델이 잘 작동합니다.
속도를 위한 설계
좋은 아이디어는 기다려주지 않습니다. 운전 중, 산책 중, 잠들기 직전에 떠오릅니다. 잠금 화면 위젯은 생각에서 녹음까지의 마찰을 최소화하도록 설계되었습니다.
Live Activity와 함께하는 잠금 화면 위젯
- • 원탭 활성화: 잠금 화면에서 바로 녹음 시작
- • Live Activity: Dynamic Island에서 녹음 시간 시각적 확인
- • 원활한 Face ID: 위젯이 Face ID 인증과 매끄럽게 작동
- • 핸즈프리 가능: 장갑, 젖은 손, AirPods 탭 제스처로도 작동
캡처-리뷰 워크플로우
가장 효과적인 음성 메모 워크플로우는 캡처와 리뷰를 분리합니다. 모바일 기기는 빠른 녹음에 뛰어나고, 데스크톱 환경은 깊은 편집에 뛰어납니다.
iPhone: 캡처
생각이 떠오를 때 iPhone으로 캡처하세요. 잠금 화면 위젯이 마찰을 단 한 번의 탭으로 줄여줍니다. 모바일 모델이 즉시 전사하여 바로 사용할 수 있는 텍스트를 제공합니다.
Mac: 리뷰
Mac에서 Whisper Notes는 깊은 작업을 위한 도구를 제공합니다:
- • Large-v3 Turbo 처리: 최대 정확도로 녹음 재전사
- • 타임스탬프가 있는 단락: 단락을 클릭하면 오디오의 해당 부분으로 이동
- • 동기화된 재생: 오디오 재생 시 텍스트 하이라이트
- • 유연한 내보내기: 일반 텍스트, 타임스탬프 형식 또는 SRT 자막
- • 시스템 전체 받아쓰기: Fn을 누른 채로 어떤 앱에서든 직접 받아쓰기
동기화된 오디오 재생과 타임스탬프 전사
마음의 평화
진짜 이점은 기술적 보안뿐만이 아닙니다—심리적인 것입니다.
오디오가 기기를 절대 떠나지 않는다는 것을 알면, 자기 검열 없이 완전히 자유롭게 말할 수 있는 자유가 생깁니다. 반쯤 형성된 생각, 좌절감 표출, 엉뚱한 아이디어 브레인스토밍, 민감한 업무 사항 기록—누가 결국 그 오디오에 접근할 수 있을지 걱정하지 않고 모든 것을 녹음할 수 있습니다.
이것은 어떤 사람들이 종이 노트에 쓰는 것을 선호하는 것과 같은 이유입니다: 디지털 노트가 안전하지 않아서가 아니라, 프라이버시의 감각이 얼마나 자유롭게 생각하는지를 바꾸기 때문입니다.
경제 모델
모든 처리가 기기에서 이루어지기 때문에 사용량에 따라 증가하는 서버 비용이 없습니다. 이것이 일회성 구매 모델을 가능하게 합니다: iPhone과 Mac 모두 $4.99, 영구적으로.
구독 없음. 분당 요금 없음. 사용 제한 없음.
솔직한 트레이드오프
로컬 처리에는 이해할 가치가 있는 실제 트레이드오프가 있습니다:
고려사항
- • 처리 속도: 온디바이스 추론은 클라우드 API보다 느립니다. 10분 녹음은 iPhone 15에서 1-2분이 걸립니다. 클라우드 서비스는 몇 초 만에 반환합니다.
- • 정확도 한계: Whisper는 명확한 음성에서 95% 이상의 정확도를 달성합니다. 강한 악센트나 큰 배경 소음은 약간의 편집이 필요할 수 있습니다.
- • 플랫폼: Apple Silicon만—Mac M1 이상, iOS 18+ iPhone. Android나 Windows 없음.
- • 녹음 후 전사: Whisper Notes는 녹음 중이 아닌 녹음 후에 전사합니다. 이것이 더 정확한 결과를 생성합니다.
이 접근법이 적합한 경우
Whisper Notes가 잘 맞는 경우:
- • 프라이버시 의식이 있는 전문가: 법률, 의료, 저널리즘, 치료
- • 개인적 성찰: 일기, 아이디어 캡처, 생각 정리
- • 오프라인 환경: 비행기, 보안 시설, 불안정한 연결
- • 구독에 지친 사용자: 한 번 결제, 영구 접근
대안을 고려할 때
다음이 필요하다면 클라우드 서비스가 더 나을 수 있습니다:
- • 팀과 공유되는 실시간 전사
- • 매우 긴 녹음의 즉각적인 처리
- • Android 또는 Windows 지원
요약
Whisper Notes는 간단한 전제에 기반합니다: 음성 메모는 개인적이며, 그 오디오가 어디에 존재하는지 당신이 통제할 수 있어야 합니다. 우리는 클라우드 서비스가 나빠서가 아니라, 일부 콘텐츠는 기기에 머물러야 하기 때문에 로컬 우선 아키텍처를 선택했습니다.
정확도를 위해 Mac에서 Whisper Large-v3 Turbo. 빠른 캡처를 위해 iPhone에서 모바일 최적화 모델. 두 플랫폼 모두 완전히 오프라인으로 처리합니다.
$4.99 한 번. iPhone과 Mac. 당신의 오디오는 당신의 것입니다.