Superwhisper vs Whisper Notes: uma comparação técnica
Preços, modelos de voz, permissões e arquitetura — uma comparação detalhada de duas apps de transcrição offline para Mac

O Superwhisper foi um pioneiro. Mostrou à comunidade Mac o que era possível: executar o modelo Whisper da OpenAI localmente no Apple Silicon, transcrever fala sem enviar áudio para a nuvem.
Por um tempo, era exatamente o que muitos de nós queríamos—um utilitário de transcrição simples, rápido e local.
Então ele mudou.
A direção recente tem sido para se tornar um "Assistente de IA"—consciência de contexto, sincronização na nuvem, modos agênticos que interpretam suas palavras em vez de apenas transcrevê-las.
Com essa mudança vieram três alterações estruturais:
• A Assinatura: Pagar aluguel mensal por modelos que rodam no seu próprio hardware.
• A Permissão: Input Monitoring que pode observar todas as suas teclas digitadas.
• A Conta: Login obrigatório para software que funciona totalmente offline.
Esta página não é sobre bugs ou problemas temporários. É sobre filosofia arquitetural.
Whisper Notes existe como alternativa para quem preferia o que o Superwhisper costumava ser: um utilitário offline confiável que faz uma coisa bem.Comparação rápida: Whisper Notes vs Superwhisper
| Recurso | Whisper Notes | Superwhisper |
|---|---|---|
| Preço | $6.99 uma vez | $8.49/mês ou $250 vitalício |
| Permissão macOS | Apenas Acessibilidade | Input Monitoring |
| Conta necessária | Não | Sim |
| App iOS | $6.99 (compra separada) | Assinatura separada |
| Modelos de voz | Whisper + Parakeet V3 + Qwen3-ASR | Whisper (+ variantes distil) |
| 100% Offline | Sim | Opcional (híbrido) |
| Edição IA local | Sim (Gemma 4, no dispositivo) | Sim (depende da nuvem) |
| Funções Contexto IA | Não | Sim |
Modelos de voz: três motores vs um
Esta é a diferença técnica que mais importa no uso diário.
O Superwhisper oferece Whisper e suas variantes destiladas. O Whisper Notes inclui três motores de voz independentes, cada um otimizado para cenários diferentes:
Comparação de modelos de voz
| Modelo | Velocidade | WER | Melhor para |
|---|---|---|---|
| Whisper Large V3 Turbo | 10–15× tempo real | 7.44% | 100+ idiomas, uso geral |
| Parakeet V3 | ~35× tempo real | 6.32% | Inglês — mais rápido, menor taxa de erro |
| Qwen3-ASR | Streaming | — | Chinês, japonês, coreano + 27 idiomas |
Parakeet V3 (da NVIDIA) transcreve inglês 3× mais rápido que o Whisper com menor taxa de erro — 6.32% vs 7.44% WER no benchmark FLEURS. Uma reunião de 35 minutos que leva 3 minutos com Whisper termina em menos de 20 segundos com Parakeet V3.
Qwen3-ASR é projetado especificamente para idiomas CJK (chinês, japonês, coreano) e oferece transcrição em streaming — o texto aparece enquanto você fala, não depois.
Estes não são modelos de nuvem atrás de um paywall. Eles rodam inteiramente no Neural Engine do seu Mac, incluídos na compra de $6.99.
O Superwhisper oferece apenas variantes do Whisper. Para fluxos de trabalho focados em inglês ou CJK, a diferença na seleção de modelos é significativa.
A questão do Input Monitoring
Esta é a permissão que faz usuários preocupados com privacidade pararem.
O Superwhisper solicita acesso ao Input Monitoring no macOS. Esta permissão permite que um aplicativo receba todos os eventos de teclado e mouse em todo o sistema—independentemente de qual app está em foco.
É a mesma categoria de permissão usada por ferramentas de acessibilidade, software de automação e sim, keyloggers.
Por que o Superwhisper precisa disso?Para ser "inteligente". Os recursos de Contexto IA leem o conteúdo da sua tela, entendem qual aplicativo você está usando e adaptam seu comportamento de acordo. Para observar seu ambiente, eles precisam de permissões de observação.
O trade-off arquitetural:Você obtém transcrição consciente do contexto. Eles obtêm a capacidade técnica de ver tudo o que você digita, incluindo senhas, mensagens privadas e documentos confidenciais.
Não estamos sugerindo intenção maliciosa—mas a permissão em si é arquiteturalmente capaz de vigilância.
Arquitetura de Permissões
Input Monitoring (Superwhisper):
Pode receber todos os eventos de teclado em todos os aplicativos. Necessário para "consciência de contexto".
Acessibilidade (Whisper Notes):
Pode inserir texto na posição do cursor. Não pode ler suas teclas ou observar outros apps. Apenas saída.
Whisper Notes usa exclusivamente a permissão de Acessibilidade. Podemos inserir texto onde seu cursor está—isso é saída. Não podemos ler o que você digita ou o que está na sua tela.
Nossa posição: Escolhemos não ser "inteligentes" porque inteligente requer observar. Uma ferramenta de transcrição não precisa saber que suas senhas existem. Ela só precisa digitar o que você disse.O problema do aluguel de hardware
Esta é a decisão de preços que frustra usuários avançados.
O Superwhisper colocou modelos de IA locais—incluindo Nvidia Parakeet e variantes do Whisper—atrás de um paywall de assinatura. Os usuários agora pagam taxas mensais para desbloquear processamento que roda inteiramente em seus próprios dispositivos.
Vamos ser precisos sobre o que está acontecendo:• Seu MacBook M3 ou M4 tem um Neural Engine.
• A Apple projetou este chip especificamente para aprendizado de máquina no dispositivo.
• Os pesos do modelo Whisper são código aberto, lançados pela OpenAI.
• A eletricidade vem da sua tomada.
Pelo que exatamente a assinatura está pagando?
| Período | Whisper Notes | Superwhisper (Mensal) | Superwhisper (Vitalício) |
|---|---|---|---|
| Ano 1 | $6.99 | $101.88 | $250 |
| Ano 3 | $6.99 | $305.64 | $250 |
| Edição IA local | Sim (Gemma 4, no dispositivo) | Sim (depende da nuvem) | |
| Ano 5 | $6.99 | $509.40 | $250 |
Se os recursos de nuvem do Superwhisper—sincronização, assistentes de IA, APIs externas—fornecem valor para você, o preço de assinatura é defensável. Você está pagando pela infraestrutura deles.
Mas colocar modelos locais atrás do mesmo paywall? Isso é cobrar aluguel por computação que acontece em hardware que você já possui.
As avaliações de usuários refletem essa frustração: "Vocês realmente colocaram modelos locais atrás de um paywall? Isso não faz sentido."
Nossa filosofia de preços: Whisper Notes custa $6.99 uma vez porque não operamos infraestrutura de nuvem. Seu Neural Engine faz o trabalho. Nós fornecemos a interface. É uma transação única, não um relacionamento contínuo.
Complexidade e suas consequências
Esta seção não é sobre um bug específico. É sobre trade-offs arquiteturais.
Quando o software tenta fazer muitas coisas—sincronização na nuvem, consciência de contexto, interpretação agêntica, processamento híbrido local/nuvem—ele necessariamente se torna complexo.
Sistemas complexos têm mais modos de falha do que sistemas simples. Isso não é uma crítica; é física.Usuários do Superwhisper relataram um padrão de falha:
• Gravações que não produzem transcrições
• Áudio que parece desaparecer
• Erros de "Voz não encontrada" após sessões longas
Não podemos diagnosticar a base de código deles, mas podemos observar o padrão: quanto mais recursos um app gerencia, mais formas ele pode falhar.
O problema da máquina de estados:Apps conscientes de contexto devem rastrear muitas variáveis. O que está na tela? A rede é rápida o suficiente para processamento na nuvem? Esta gravação deveria sincronizar? Qual modelo de IA deve lidar com este contexto?
Cada ponto de decisão é um potencial descompasso entre o estado esperado e o real.
Whisper Notes é deliberadamente simples:Gravar áudio → Escrever no disco continuamente → Processar com Whisper → Exibir texto
Fluxo de dados linear. Sem sincronização na nuvem para falhar. Sem consciência de contexto para dar errado. Sem decisões de roteamento híbrido.
Usamos persistência progressiva—escrevendo áudio no disco a cada poucos segundos durante a gravação. Se o app travar, ou sua bateria morrer, você perde no máximo os últimos segundos. Os 20 minutos anteriores já estão seguros no seu disco.
Isso não é um recurso que promovemos; é simplesmente como software de gravação confiável deveria funcionar.
O trade-off é real: Não podemos fazer o que o Superwhisper faz. Não entendemos o contexto da sua tela. Não sincronizamos entre dispositivos. Não temos modos de IA que reformatam sua fala.Apenas transcrevemos. Com precisão, confiabilidade, localmente. Esse é todo o produto.
O requisito de conta
O Superwhisper requer a criação de conta para usar o software—mesmo para transcrição local no seu próprio dispositivo.
Isso serve ao modelo de negócios deles: gerenciamento de assinaturas, sincronização na nuvem e análises de uso requerem identidade do usuário.
Mas para quem simplesmente quer voz-para-texto local, é atrito sem benefício.
Whisper Notes não tem sistema de contas:• Baixe o app
• Conceda permissão de Acessibilidade
• Comece a falar
Sem email. Sem senha. Sem verificação de identidade.
Não é apenas sobre conveniência. É sobre minimização de dados:
• Cada conta é outra senha para gerenciar
• Cada entrada no banco de dados é outro alvo de vazamento
• Cada identidade de usuário é outro ponto de dados para proteger
Para software que roda inteiramente no seu dispositivo, não vemos justificativa para saber quem você é. O modelo Whisper não precisa do seu email para converter fala em texto.
Quando o Superwhisper é certo para você
Não estamos afirmando que o Whisper Notes é universalmente melhor. O Superwhisper fez escolhas arquiteturais que servem bem a casos de uso específicos.
Escolha o Superwhisper se:• Você quer modos de Contexto IA que entendem sua tela e adaptam a saída
• Você precisa de sincronização na nuvem entre múltiplos Macs
• Você valoriza a experiência de "assistente" sobre transcrição pura
• A assinatura ou preço vitalício de $250 se encaixa no valor do seu fluxo de trabalho
• A permissão de Input Monitoring não te preocupa
• Você quer três modelos de voz — Whisper, Parakeet V3 (inglês mais rápido) e Qwen3-ASR (melhor para chinês/japonês/coreano)
• Você quer edição IA local com Gemma 4 — correção de pontuação, remoção de palavras de preenchimento, geração automática de títulos, tudo no dispositivo
• Você quer pagar uma vez ($6.99) e possuir o software
• Você não quer criar uma conta
• A arquitetura de privacidade importa mais do que recursos de conveniência
• Você também usa iPhone ($6.99 na App Store, compra separada da versão Mac)
O Superwhisper está construindo em direção a um futuro onde a IA entende todo o seu contexto computacional. Isso é ambicioso e alguns usuários querem isso.
O Whisper Notes está construindo o oposto: um utilitário que faz exatamente uma coisa, não sabe nada sobre seu computador além da entrada do microfone, e funciona da mesma forma toda vez.
Software chato para pessoas que valorizam previsibilidade.
O argumento pelo software chato
"Chato" não é pejorativo em engenharia de software. Chato significa previsível. Chato significa menos surpresas.
Software chato:
• Não precisa de conta
• Não requer conectividade de rede para funções principais
• Não solicita permissões além do estritamente necessário
• Não evolui para algo que você não pediu
O Superwhisper começou como software chato. Um utilitário de transcrição local. Simples, rápido, confiável.
Então cresceu em ambições. Queria ser um assistente de IA, entender contexto, sincronizar através de nuvens, interpretar suas palavras.
Alguns usuários seguiram essa evolução felizes. Outros sentem falta do que ele era.
Whisper Notes é intencionalmente chato. Fazemos uma coisa: converter fala em texto usando o Neural Engine do seu dispositivo. Não observamos sua tela. Não sincronizamos seus dados. Não interpretamos sua intenção. Apenas transcrevemos.
$6.99 por plataforma. Sem conta. Sem Input Monitoring. Sem assinaturas. Sem ambições além da confiabilidade.
Para quem preferia a visão original do que ferramentas de transcrição local poderiam ser—Whisper Notes está aqui.
Perguntas frequentes
Por que o Superwhisper requer a permissão de Input Monitoring?
O Superwhisper usa Input Monitoring para 'consciência de contexto'—entender o que está na sua tela para adaptar o comportamento da IA. Esta permissão permite ler todas as teclas digitadas em todos os aplicativos. O Whisper Notes usa apenas a permissão de Acessibilidade, que pode inserir texto mas não pode observar sua entrada ou outros apps.
Por que o Superwhisper mudou para preços de assinatura?
O Superwhisper opera infraestrutura de nuvem para sincronização, contas e alguns recursos de IA. As assinaturas financiam essa infraestrutura. No entanto, eles também colocaram modelos locais (que rodam no seu hardware) atrás do mesmo paywall—e essa é a decisão de preços que os usuários mais questionam.
O Whisper Notes é tão preciso quanto o Superwhisper?
O Whisper Notes oferece três modelos de voz. Parakeet V3 tem uma taxa de erro de palavras menor (6.32%) que o Whisper (7.44%) no benchmark FLEURS em inglês, e funciona 3× mais rápido. Para chinês, japonês e coreano, Qwen3-ASR é projetado especificamente para esses idiomas. O Superwhisper oferece apenas variantes do Whisper.
Quais modelos de voz o Whisper Notes suporta?
Três modelos: Whisper Large V3 Turbo (100+ idiomas, uso geral), Parakeet V3 da NVIDIA (inglês mais rápido, menor taxa de erro) e Qwen3-ASR da Alibaba (otimizado para chinês, japonês, coreano e 27 outros idiomas com saída em streaming). Todos rodam localmente no seu dispositivo.
Quanto custa o Whisper Notes comparado ao Superwhisper?
O Whisper Notes custa $6.99 por plataforma (iOS e Mac vendidos separadamente). O Superwhisper é $8.49/mês ou $250 vitalício, com o app iOS exigindo assinatura separada. Em 3 anos: Whisper Notes custa $6.99 por plataforma, Superwhisper mensal custa $305.64.
O Whisper Notes pode sincronizar entre dispositivos?
Não, por design. Não operamos servidores de nuvem, então não há nada através do qual sincronizar. Suas gravações ficam no dispositivo onde você as criou. Isso elimina falhas de sincronização e garante que seus dados de voz nunca deixem seu hardware. Use AirDrop ou exportação manual se necessário.
Por que o Whisper Notes não requer uma conta?
A transcrição local não tem razão técnica para exigir verificação de identidade. Acreditamos em minimização de dados—se não precisamos do seu email para o software funcionar, não deveríamos pedir. Sem conta significa sem senha para gerenciar, sem entrada de banco de dados para vazar.
Qual é a diferença entre as permissões de Input Monitoring e Acessibilidade?
Input Monitoring pode receber todos os eventos de teclado/mouse em todo o sistema (observação). Acessibilidade pode inserir texto e realizar automação de UI (ação). O Whisper Notes usa Acessibilidade para digitar texto transcrito na posição do seu cursor—apenas saída, sem observação do que você digita.
Três modelos de voz. $6.99 uma vez.
Whisper + Parakeet V3 + Qwen3-ASR. Edição IA local. Sem Input Monitoring. Sem assinaturas. Sem contas.