NOVO · v2.0.0

Tudo em Um único aplicativo

Transcreva 30 idiomas + 22 dialetos chineses

Traduza 38 idiomas, totalmente off-line

Marca de tempo crie seus próprios legendas

Servidor MCP converse com ele a partir do seu conjunto de IA

Funciona localmente — mesmo em laptopsSem assinaturaVersão de teste gratuita por 14 dias

Brethof Voice Pro — Main Screen
Brethof Voice Pro — Recording
🔒

Privacidade Total

Cada palavra que você diz é processada em seu dispositivo. Nenhum áudio, texto ou metadado é transmitido para nenhum servidor. Não há backend em nuvem, nem telemetria, nem análises, e nenhum envio de dados de volta.

  • Zero chamadas de rede durante a transcrição
  • Modelos armazenados localmente após download único
  • Motor de código aberto Qwen3-ASR — totalmente auditável

Aceleração por GPU

O Brethof Voice Pro utiliza o motor otimizado para GGUF com llama.cpp para proporcionar inferência extremamente rápida. Suporta, de forma pronta para uso, os três principais fabricantes de GPUs.

  • NVIDIA — Aceleração Vulkan (série GTX 10 e modelos mais recentes)
  • AMD — Aceleração Vulkan (série RX 500 e modelos mais recentes)
  • Intel — Aceleração Vulkan (GPUs Arc e gráficos integrados)
  • Fallback de CPU — funciona sem GPU, apenas mais lento
🌐

Transcrição off-line — 30 idiomas + 22 dialetos chineses

Impulsionado por Qwen3-ASR por meio de llama.cpp. Defina um idioma específico para obter a maior precisão, ou deixe o motor detectar automaticamente. Cada palavra permanece em seu computador.

InglêsChinêsCantonêsÁrabe AlemãoFrancêsEspanholPortuguês ItalianoNeerlandêsRussoIndonésio CoreanoTailandêsVietnamitaJaponês TurcoHindiMalaioSueco DinamarquêsFinlandêsPolonêsTcheco FilipinoPersaGregoRomeno HúngaroMacedônio

Além disso, 22 dialetos regionais chineses (Anhui, Dongbei, Fujian, Henan, Hunan, Shandong, Sichuan, Wu, Minnan e outros) são reconhecidos automaticamente quando o idioma é definido como chinês ou em modo de detecção automática.

💬

Tradução off-line — 38 idiomas Novidades na versão 2.0.0

Traduza qualquer transcrição, saída de teclado de voz, texto simples ou arquivo de legenda — inteiramente em seu computador. Impulsionado por Tencent Hunyuan MT2: em FLORES-200 (XCOMET-XXL), o nível de qualidade atinge 97,9% do Google Gemini 3.1 Pro E o compacto Fast tem 89,9%, superando o Gemini 3.1 Pro em testes do mundo real (WildMTBench) e em traduções de línguas minoritárias.

ChinêsInglêsFrancêsPortuguês EspanholJaponêsTurcoRusso ÁrabeCoreanoTailandêsItaliano AlemãoVietnamitaMalaioIndonésio FilipinoHindiTradução em chinêsPolonês TchecoNeerlandêsKhmerBirmanês PersaGujaratiUrduTelugu MarathiHebraicoBengaliTamil UcranianoCantonêsTibetanoCazaque MongolUigur
  • Transcrever + traduzir — Escolha um idioma de destino na janela pop-up “Transcrever”; o ASR faz a transcrição, o MT faz a tradução, e ambos são exibidos lado a lado
  • Tradução de teclado de voz — fale, escolha alvos em uma grade de idiomas com 3 colunas, o teclado digita a tradução
  • Tradutor de legendas — Arquivos SRT/VTT em qualquer um dos 38 idiomas, com modo bilíngue opcional (texto original + tradução por cena).
  • Dois níveis de modelo — Rápido (~1 GB): menos de um segundo em CPU ou GPU; Qualidade (~4,3 GB): menos de um segundo em GPU
  • Seletor de dispositivo independente — execute a ASR em Vulkan 0, a tradução em Vulkan 1, ou ambos no CPU
📈

Dois tamanhos de modelo

Escolha o equilíbrio entre precisão, velocidade e VRAM que se adapte ao seu computador. Ambos utilizam a mesma arquitetura Qwen3-ASR; você pode alternar entre eles a qualquer momento em Configurações → Modelos.

  • 0,6 bilhão — Pequeno, rápido, funciona com GPUs integradas ou qualquer placa Vulkan de 4 GB ou mais. Recomendado como padrão para laptops.
  • 1,7 bilhão — Maior tamanho e maior precisão em áudios com acentos ou ruídos. Funciona bem com 6 GB+ de VRAM. É o mais avançado entre os sistemas ASR abertos.

Downloads opcionais de complementos sob demanda em Configurações → Modelos: Alinhador Forçado (~540 MB) para marcas de tempo em nível de palavra, Hunyuan MT2 Rápido (~1 GB) ou Qualidade (~4,3 GB) para tradução.

🎵

Redução de ruído por IA

Supressão opcional de ruído com DeepFilter para gravações feitas em ambientes barulhentos — desativada por padrão; habilite-a através da janela emergente “Ruído”. Ignorá-la em clipes de microfone limpos na verdade melhora a qualidade (o DeepFilter pode processar demais áudio curto e limpo).

  • Remove o ruído de fundo, os cliques do teclado e o eco do ambiente
  • Atenuação configurável
  • Não é necessário hardware adicional
  • Desativado por padrão — alternar entre gravação por gravação ou sempre ativo
🎓

Treinamento Personalizado de Voz

Ajuste o modelo com sua própria voz usando LoRA — tudo é processado do início ao fim em seu computador. Sempre que você corrigir uma palavra mal reconhecida, o par {clip, correção} será salvo em seu conjunto de dados de treinamento local. O painel de treinamento na janela principal exibe, de imediato, o número total de amostras e minutos gravados — clique nele para abrir o navegador de conjuntos de dados e, em seguida, selecione “Iniciar treinamento” na aba Treinamento.

  • Adapte-se ao seu sotaque, dialeto e ritmo de fala.
  • As correções são salvas automaticamente — basta continuar usando o aplicativo.
  • Ajuste fino de LoRA — rápido, eficiente, sem treinamento completo
  • Seleção automática NVIDIA CUDA (cu128 PyTorch) ou CPU backend
  • Exporta automaticamente o modelo treinado para GGUF quando concluído
  • Seus dados de voz nunca saem do seu dispositivo.
  • Gratuito para cada licença paga
⌨️

Teclado de Voz e Injeção Direta de Texto

Mantenha a tecla de atalho pressionada, fale, e o texto será inserido onde estiver o cursor — como em um teclado. Funciona em navegadores, IDEs, terminais, aplicativos de bate-papo, em qualquer lugar onde um campo de texto aceite entrada por teclado.

  • Tecla de atalho padrão F9 — configurável, gravar ao manter pressionado ou alternar
  • Gatilho opcional com o botão direito do mouse para gravação sem as mãos
  • Chip de tradução em tempo real — Fale em um idioma, o teclado digitará a tradução. Escolha um ou mais destinos em uma grade de 3 colunas: um por linha, inline.EN: … || PL: …), ou apenas o primeiro alvo.
  • Funciona com qualquer campo de texto, editor, terminal ou chat
  • X11 e Wayland no Linux, entrada nativa no Windows
📚

Contexto e Terminologia de Palavras-Chave

Um campo, duas utilidades. Violar a imparcialidade ASR em relação a nomes próprios, marcas e jargões — evita que “VFIO” seja traduzido incorretamente como “VEAF1”. O mesmo campo também serve como dicionário de terminologia de tradução — Fixe o “Brethof Voice” para que permaneça como “Brethof Voice” em todos os idiomas de destino.

  • Adicione termos em Configurações — um por linha
  • Melhora o reconhecimento de nomes próprios e abreviações
  • Preserva os nomes de marcas e termos técnicos nas traduções
  • Não é necessário retreinamento — é aplicado no momento da inferência
🤖

Servidor MCP para agentes de IA Planos pagos

O mesmo binário que executa a interface gráfica pode funcionar como servidor do Protocolo de Contexto de Modelo — 19 ferramentas que oferecem funcionalidades de ASR e MT para Claude Desktop, Claude Code, Cursor, Cline ou qualquer agente compatível com MCP. A transmissão é feita por stdio: sem porta, sem firewall, sem vinculação a localhost. O agente controla todo o ciclo de vida.

  • Transcreva arquivos de áudio/vídeo, gravações de microfone ou áudio do sistema
  • Traduza texto, SRT ou VTT (modo bilíngue suportado)
  • Ative ou desative o dispositivo de processamento ASR ou MT dinamicamente
  • Liste e alterne os perfis de voz pessoais
  • Leia/escreva qualquer configuração do aplicativo a partir do agente

Executar brethof-voice --mcp e o agente se conecta por meio de stdio. É necessária uma licença paga — usuários de teste não podem iniciar o servidor.

Pronto para experimentá-lo?

Teste gratuito de 14 dias. Todas as funcionalidades disponíveis. Sem necessidade de cartão de crédito.

Tudo o que construímos

Externo:   YouTube · GitHub