오프라인 음성 인식

이제야 제대로 작동하는 이유

오랫동안 로컬 음성 인식은 느리고 부정확했습니다. 이제 달라졌습니다.

오프라인 음성 인식 소프트웨어

배경 설명

몇 년 전만 해도 정확한 음성 인식을 원하면 오디오를 누군가의 서버에 업로드해야 했습니다. 로컬 옵션도 있었지만 눈에 띄게 품질이 떨어졌습니다. 이건 실제 트레이드오프였습니다.

그러다 몇 가지 일이 일어났습니다. OpenAI가 Whisper를 오픈 모델로 공개했습니다. Apple이 AI 전용 하드웨어가 탑재된 칩을 출시하기 시작했습니다. 갑자기 클라우드 서비스를 구동하던 것과 같은 모델이 노트북에서도 돌아가게 되었습니다.

저희가 Whisper Notes를 만들기 시작한 것도 그때쯤이었는데, 주로 저희가 직접 필요했기 때문입니다. 같은 것을 찾는 사람이 많다는 걸 알게 되었습니다.

무엇이 바뀌었나

예전에는 클라우드 음성 인식이 명확한 선택인 세 가지 이유가 있었습니다. 세 가지 모두 바뀌었습니다.

컴퓨팅 파워

음성 인식을 하는 AI 모델은 큽니다—수억 개의 매개변수입니다. 예전에는 일반 하드웨어에서 돌리면 느리고 배터리를 많이 소모했습니다.

Apple의 Neural Engine이 이를 바꿨습니다. AI 작업 전용 칩으로, 모든 M 시리즈 Mac과 최신 iPhone에 들어 있습니다. Whisper Large v3 Turbo가 이제 MacBook Air에서 쾌적하게 돌아갑니다.

iPhone에서는 모바일 칩에 최적화된 작은 모델을 사용합니다. 큰 모델만큼 정확하지는 않지만, 대부분의 내장 받아쓰기보다는 훨씬 낫습니다.

정확도

이건 저희도 놀랐습니다. 로컬 모델이 '쓸만한' 정도일 거라고 예상했습니다. 실제로는 꽤 좋습니다.

Whisper Large v3는 대부분의 시스템 받아쓰기보다 단어 오류율이 낮습니다. 그리고 로컬과 클라우드 API 간의 격차가 꽤 작아졌습니다. 대부분의 경우 차이를 느끼지 못할 겁니다.

이건 계산을 바꿉니다. 정확도가 비슷하다면, 오디오를 업로드할 주된 이유가 사라집니다.

프라이버시

클라우드 서비스가 위험하다고 겁주려는 게 아닙니다. 대부분은 데이터를 책임감 있게 처리합니다.

하지만 '오용하지 않겠다고 약속한다'와 '애초에 갖고 있지 않다'는 다릅니다. 당신의 목소리는 생체 정보입니다—비밀번호와 달리 문제가 생겨도 바꿀 수 없습니다.

로컬 음성 인식을 사용하면 오디오가 기기에 남습니다. 암호화해서 업로드하는 게 아니라, 아예 전송하지 않습니다. 이게 중요한 사람도 있고, 아닌 사람도 있습니다. 저희는 전자를 위해 만들었습니다.

언제 무엇을 사용할까

로컬이 항상 정답은 아닙니다. 저희는 이렇게 생각합니다.

실시간 협업이 필요하세요?

Otter 같은 클라우드 도구는 그걸 위해 만들어졌습니다. 여러 사람이 같은 텍스트를 편집하려면 중앙 서버가 필요합니다. 클라우드의 좋은 활용입니다.

Windows나 Android를 사용하세요?

이 플랫폼에서는 로컬 AI가 어렵습니다—하드웨어 지원이 아직 성숙하지 않았습니다. Windows에서는 Dragon이 작동합니다. Android에서는 보통 클라우드 서비스가 현실적인 선택입니다.

누가 무슨 말을 했는지 알아야 하나요?

화자 식별에는 추가 모델이 필요합니다. Rev 같은 클라우드 서비스가 이걸 잘 처리합니다. 로컬 도구도 따라잡고 있지만, 아직 클라우드가 우위에 있습니다.

그냥 프라이빗하고 정확한 음성 인식만 필요하세요?

그게 저희가 집중한 부분입니다. 프라이버시와 정확도가 주요 관심사이고 Apple 기기를 사용한다면, 로컬이 이제 잘 작동합니다.

Whisper Notes가 하는 일

Mac에서는 Whisper Large v3 Turbo를, iPhone에서는 최적화된 작은 모델을 실행합니다. 오디오가 기기를 떠나지 않습니다.

Mac에서는 Neural Engine을 사용해 실시간의 10-15배 속도로 음성 인식합니다. 1시간 녹음이 몇 분이면 됩니다. iPhone에서는 느리지만, 대부분의 녹음에는 충분히 실용적입니다.

$4.99, 한 번만 결제, 두 플랫폼 모두 사용 가능. 서버를 운영하지 않으니 구독이 필요 없습니다. 그게 전부입니다.

$4.99일회성 구매. Mac과 iPhone. 구독 없음. 데이터 수집 없음.
Apple App Store logoWhisper Notes 받기

요약하면

로컬 음성 인식은 예전에는 타협이었습니다. 이제는 많은 사람에게 합리적인 기본 선택이 되었습니다.

협업이 필요하거나 Apple이 아닌 플랫폼을 사용한다면, 클라우드 서비스가 여전히 합리적입니다. 정확하고 프라이빗한 음성 인식이 주 목적이고 Mac이나 iPhone을 사용한다면, 로컬 옵션이 꽤 좋아졌습니다.

저희는 매일 Whisper Notes를 직접 사용합니다. 필요한 일을 해줍니다.

사용해 보세요

업로드되지 않는다는 걸 확인하고 싶다면 비행기 모드에서 테스트해 보세요. 모든 것이 동일하게 작동합니다.

App Store • $4.99 • Mac과 iPhone

한 번 구매로 두 플랫폼 모두 사용 가능.