녹음기에 담긴 파일이 있습니다 — 구술한 메모, 인터뷰, 진료 기록. 이제 이것을 텍스트로 옮겨야 합니다. 오디오를 단 1초도 업로드하지 않고 처리하는 방법: 녹음기에서 파일을 내보내 Whisper Notes에 불러오면, SenseVoice가 iPhone이나 Mac에서 완전히 로컬로 음성을 텍스트로 변환합니다. 클라우드 없음, 계정 없음, 분당 요금 없음. $6.99 한 번 결제로 끝.
지금도 녹음기를 쓰는 사람들 — 그리고 이것이 중요한 이유
녹음기는 사라지지 않았습니다. 말하는 것이 타이핑보다 빠르고, 내용이 잃어버리거나 유출되기에는 너무 민감한 직업군으로 옮겨갔을 뿐입니다.
- •변호사는 미팅 사이사이에 서면, 상담 기록, 서신을 구술합니다. 그 녹음에는 의뢰인 이름, 소송 전략, 비밀유지 대상 정보가 담겨 있어 절대 제3자 서버에 닿아서는 안 됩니다.
- •의사는 환자 진료 후마다 소견과 의뢰서를 구술합니다. 그 오디오는 가장 날것 그대로의 의료 데이터입니다.
- •기자는 녹음기와 휴대폰으로 인터뷰를 녹음합니다. 취재원 보호는 그 사람의 목소리를 남의 클라우드에 업로드하지 않는 것에서 시작됩니다.
- •연구자는 수 시간 분량의 현장 인터뷰와 관찰 기록을 수집합니다. 녹음을 어디서 처리할 수 있는지 명시적으로 제한하는 연구윤리 규정 아래에서 진행하는 경우가 많습니다.
네 직업군 모두 병목은 같습니다: 수 시간의 녹음을 텍스트로 바꾸는 일. 전통적으로는 타이피스트, 외주 속기 업체, 혹은 클라우드 서비스에 맡겨야 했습니다 — 하나같이 당신이 말한 모든 것을 듣게 되는 사람이거나 서버입니다. 오프라인 변환은 이 중간자를 완전히 없애 버립니다.
녹음에서 텍스트까지 3단계
1. 녹음기에서 파일 내보내기
녹음기를 USB로 연결하거나 전용 앱을 사용해 녹음 파일을 Mac이나 iPhone으로 복사합니다. 대부분의 디지털 녹음기 — 올림푸스, 필립스, 소니, Zoom, 혹은 휴대폰의 음성 메모 앱 — 는 MP3, WAV, M4A로 저장합니다. 모두 그대로 사용 가능하며 변환이 필요 없습니다.
2. Whisper Notes로 가져오기
Mac에서는 파일을 Whisper Notes로 드래그하고, iPhone에서는 앱으로 공유하면 됩니다. 길이 제한은 없습니다 — 2분짜리 메모든 3시간짜리 인터뷰든 모두 처리됩니다. 영상 파일도 가능합니다: MP4나 MOV를 가져오면 오디오 트랙을 텍스트로 변환합니다.
| 형식 | 종류 | 지원 여부 |
|---|---|---|
| MP3 | 오디오 — 대부분의 디지털 녹음기 | 지원, 길이 무제한 |
| WAV | 오디오 — 무압축 녹음기 | 지원, 길이 무제한 |
| M4A | 오디오 — iPhone 음성 메모 | 지원, 길이 무제한 |
| MP4 | 영상 — 오디오 트랙 변환 | 지원, 길이 무제한 |
| MOV | 영상 — 오디오 트랙 변환 | 지원, 길이 무제한 |
3. 로컬에서 변환하고 원하는 곳으로 내보내기
변환 버튼을 누르면 끝입니다. 한국어 녹음이라면 SenseVoice — 한국어·중국어·일본어에서 가장 빠른 모델, 실시간의 52배 속도 — 를 선택하고, 영어나 유럽 언어라면 기본 모델인 Parakeet V3가 Whisper보다 약 10배 빠르게, 선명한 음성 기준 6.32%의 단어 오류율로 처리합니다. 어느 쪽이든 모든 처리는 기기 자체 칩에서 이루어집니다. 결과물은 타임스탬프가 붙은 문단 형태의 텍스트: 문단을 클릭하면 녹음의 해당 순간으로 바로 이동하므로, 인용문이나 투약 지시를 확인하는 데 몇 분이 아니라 몇 초면 충분합니다.
가져온 녹음을 타임스탬프와 함께 변환 — 구간을 클릭하면 원본 오디오를 들을 수 있습니다
작업이 끝나면 문서용으로는 TXT로, 녹음이 영상에서 나온 것이라면 타임스탬프가 포함된 SRT/VTT로 내보내세요. 원한다면 먼저 인라인으로 수정해도 됩니다 — 수정 내용은 오디오와 계속 동기화됩니다.
구술 녹음에서 오프라인이 클라우드를 이기는 이유
클라우드 음성 변환 서비스는 당신의 오디오를 자사 서버에 업로드하고, 거기서 처리하고, 자사 보관 정책에 따라 저장하는 방식으로 작동합니다. 팟캐스트 에피소드라면 괜찮습니다. 하지만 구술한 의뢰인 서면이나 환자 기록이라면, 굳이 감수할 필요가 없는 기밀 유출 리스크입니다.
기기에서 직접 변환하면 지켜야 할 것 자체가 없습니다. 아무것도 기기를 떠나지 않기 때문입니다. 업로드 없음, 계정 없음, 서버 로그 없음, 협상해야 할 데이터 처리 계약도 없음. 아키텍처 자체가 개인정보 보호입니다: 개인 데이터를 처리 업체에 넘기지 않는 이유는, 처리 업체라는 것이 아예 존재하지 않기 때문입니다.
| 오프라인 앱 (Whisper Notes) | 클라우드 변환 서비스 | |
|---|---|---|
| 오디오 처리 위치 | 내 기기에서 직접 | 업체의 서버 |
| 기밀 유지 | 오디오가 기기를 절대 떠나지 않음 | 업체 정책에 따라 달라짐 |
| 개인정보 보호 · GDPR | 아키텍처상 안전 — 데이터 이전 자체가 없음 | 처리 계약과 약관 확인 필요 |
| 비용 | $6.99 한 번 결제 | 월 구독 또는 분당 요금 |
| 인터넷 없이 작동 | 가능 — 법정, 진료실, 기내, 현장 | 불가능 |
| 계정 필요 | 아니요 | 예 |
녹음량이 많은 사용자에게는 비용 구조도 중요합니다. 매일 1시간씩 구술한다면 분당 과금되는 클라우드 요금은 빠르게 불어나고, 구독은 녹음을 하든 안 하든 매달 청구됩니다. 한 번 결제하면 한 달에 10분을 변환하든 일주일에 10시간을 변환하든 비용은 똑같습니다.
가장 정확한 텍스트 변환을 얻는 방법
전문적인 구술 녹음에서 가장 큰 차이를 만드는 두 가지 설정:
사용자 지정 어휘. 음성 인식 모델은 일반 언어로 학습되기 때문에, 당신의 분야에서 가장 중요한 단어 — 의뢰인 성명, 약품명, 법조문, 전문 용어 — 에서 오히려 자주 틀립니다. Whisper Notes에서는 이런 용어를 사용자 지정 어휘에 등록할 수 있고, 모델은 모호한 음성을 판별할 때 이를 활용합니다. 가장 자주 구술하는 고유명사 10개만 등록해도 반복되는 오류 대부분이 사라집니다.
언어에 맞는 모델 선택. 구술하는 언어에 맞는 모델을 고르세요:
| 한국어 / 중국어 / 일본어 | SenseVoice — 한국어·중국어·일본어·광둥어에서 가장 빠름, 실시간의 52배 |
| 영어 / 유럽 언어 | Parakeet V3 — 유럽 25개 언어, 단어 오류율 6.32%, Whisper보다 10배 빠름, 겨우 465MB |
| 기타 언어 | Whisper Large V3 Turbo — 100개 이상 언어, 약 1.5GB, 속도는 느리지만 지원 범위가 가장 넓음 |
그리고 아날로그 구술 시절의 습관 하나는 지금도 유효합니다: 녹음기를 입 가까이 대고, 일정한 속도로, 문장이 끊어지도록 또박또박 말하기. 깨끗한 오디오가 들어가면 깨끗한 텍스트가 나옵니다.
자주 묻는 질문
오래된 녹음기 파일도 텍스트로 변환할 수 있나요?
네. 녹음기에서 파일을 복사해 Whisper Notes로 가져오기만 하면 됩니다 — MP3, WAV, M4A 모두 지원하며 길이 제한도 없습니다. 10년 전 녹음도 오늘 아침 녹음과 똑같이 변환됩니다. 정확도를 좌우하는 것은 음질이지 파일의 나이가 아닙니다.
녹음기 음성을 텍스트로 변환하는 최고의 앱은 무엇인가요?
어떤 앱이든 네 가지 기준으로 판단하세요: 오디오가 어디서 처리되는지, 어떤 파일 형식을 받는지, 전문 용어를 처리할 수 있는지, 1년 사용 시 총비용이 얼마인지. 녹음 내용이 기밀 — 법률, 의료, 취재 — 이라면 기기 내 처리는 타협할 수 없는 조건이라고 우리는 생각합니다. 바로 그래서 Whisper Notes를 만들었습니다: 로컬 변환, MP3/WAV/M4A/MP4/MOV 길이 무제한 가져오기, 사용자 지정 어휘, $6.99 한 번 결제.
녹음기 음성 텍스트 변환은 인터넷 없이도 되나요?
Whisper Notes라면 됩니다 — 완전한 오프라인입니다. 음성 모델은 한 번만 다운로드하면 이후 iPhone이나 Mac 자체 칩에서 실행되므로, 지하 법정에서도, 비행기 안에서도, 신호가 없는 현장에서도 변환할 수 있습니다. 변환에는 어떤 연결도 필요하지 않습니다.
오프라인 음성 텍스트 변환은 얼마나 정확한가요?
Parakeet V3는 선명한 오디오 기준 6.32%의 단어 오류율을 기록하며, 클라우드 서비스에 뒤지지 않습니다. 한국어라면 SenseVoice가 가장 빠른 선택입니다. 남는 오류는 대부분 고유명사와 전문 용어에 몰려 있는데, 사용자 지정 어휘 기능이 바로 그것을 위한 것입니다: 반복해서 등장하는 이름과 용어를 등록하면 바로 그 단어들의 정확도가 눈에 띄게 올라갑니다.