Recursos — Brethof Voice Pro

🔒

Privacidade Total

Cada palavra que você diz é processada em seu dispositivo. Nenhum áudio, texto ou metadado é transmitido para nenhum servidor. Não há backend em nuvem, nem telemetria, nem análises, e nenhum envio de dados de volta.

Zero chamadas de rede durante a transcrição
Modelos armazenados localmente após download único
Motor de código aberto Qwen3-ASR — totalmente auditável

⚡

Aceleração por GPU

O Brethof Voice Pro utiliza o motor otimizado para GGUF com llama.cpp para proporcionar inferência extremamente rápida. Suporta, de forma pronta para uso, os três principais fabricantes de GPUs.

NVIDIA — Aceleração Vulkan (série GTX 10 e modelos mais recentes)
AMD — Aceleração Vulkan (série RX 500 e modelos mais recentes)
Intel — Aceleração Vulkan (GPUs Arc e gráficos integrados)
Fallback de CPU — funciona sem GPU, apenas mais lento

🌐

Transcrição off-line — 30 idiomas + 22 dialetos chineses

Impulsionado por Qwen3-ASR por meio de llama.cpp. Defina um idioma específico para obter a maior precisão, ou deixe o motor detectar automaticamente. Cada palavra permanece em seu computador.

InglêsChinêsCantonêsÁrabe AlemãoFrancêsEspanholPortuguês ItalianoNeerlandêsRussoIndonésio CoreanoTailandêsVietnamitaJaponês TurcoHindiMalaioSueco DinamarquêsFinlandêsPolonêsTcheco FilipinoPersaGregoRomeno HúngaroMacedônio

Além disso, 22 dialetos regionais chineses (Anhui, Dongbei, Fujian, Henan, Hunan, Shandong, Sichuan, Wu, Minnan e outros) são reconhecidos automaticamente quando o idioma é definido como chinês ou em modo de detecção automática.

💬

Tradução off-line — 38 idiomas Novidades na versão 2.0.0

Traduza qualquer transcrição, saída de teclado de voz, texto simples ou arquivo de legenda — inteiramente em seu computador. Impulsionado por Tencent Hunyuan MT2: em FLORES-200 (XCOMET-XXL), o nível de qualidade atinge 97,9% do Google Gemini 3.1 Pro E o compacto Fast tem 89,9%, superando o Gemini 3.1 Pro em testes do mundo real (WildMTBench) e em traduções de línguas minoritárias.

ChinêsInglêsFrancêsPortuguês EspanholJaponêsTurcoRusso ÁrabeCoreanoTailandêsItaliano AlemãoVietnamitaMalaioIndonésio FilipinoHindiTradução em chinêsPolonês TchecoNeerlandêsKhmerBirmanês PersaGujaratiUrduTelugu MarathiHebraicoBengaliTamil UcranianoCantonêsTibetanoCazaque MongolUigur

Transcrever + traduzir — Escolha um idioma de destino na janela pop-up “Transcrever”; o ASR faz a transcrição, o MT faz a tradução, e ambos são exibidos lado a lado
Tradução de teclado de voz — fale, escolha alvos em uma grade de idiomas com 3 colunas, o teclado digita a tradução
Tradutor de legendas — Arquivos SRT/VTT em qualquer um dos 38 idiomas, com modo bilíngue opcional (texto original + tradução por cena).
Dois níveis de modelo — Rápido (~1 GB): menos de um segundo em CPU ou GPU; Qualidade (~4,3 GB): menos de um segundo em GPU
Seletor de dispositivo independente — execute a ASR em Vulkan 0, a tradução em Vulkan 1, ou ambos no CPU

📈

Dois tamanhos de modelo

Escolha o equilíbrio entre precisão, velocidade e VRAM que se adapte ao seu computador. Ambos utilizam a mesma arquitetura Qwen3-ASR; você pode alternar entre eles a qualquer momento em Configurações → Modelos.

0,6 bilhão — Pequeno, rápido, funciona com GPUs integradas ou qualquer placa Vulkan de 4 GB ou mais. Recomendado como padrão para laptops.
1,7 bilhão — Maior tamanho e maior precisão em áudios com acentos ou ruídos. Funciona bem com 6 GB+ de VRAM. É o mais avançado entre os sistemas ASR abertos.

Downloads opcionais de complementos sob demanda em Configurações → Modelos: Alinhador Forçado (~540 MB) para marcas de tempo em nível de palavra, Hunyuan MT2 Rápido (~1 GB) ou Qualidade (~4,3 GB) para tradução.

🎵

Redução de ruído por IA

Supressão opcional de ruído com DeepFilter para gravações feitas em ambientes barulhentos — desativada por padrão; habilite-a através da janela emergente “Ruído”. Ignorá-la em clipes de microfone limpos na verdade melhora a qualidade (o DeepFilter pode processar demais áudio curto e limpo).

Remove o ruído de fundo, os cliques do teclado e o eco do ambiente
Atenuação configurável
Não é necessário hardware adicional
Desativado por padrão — alternar entre gravação por gravação ou sempre ativo

🎓

Treinamento Personalizado de Voz

Ajuste o modelo com sua própria voz usando LoRA — tudo é processado do início ao fim em seu computador. Sempre que você corrigir uma palavra mal reconhecida, o par {clip, correção} será salvo em seu conjunto de dados de treinamento local. O painel de treinamento na janela principal exibe, de imediato, o número total de amostras e minutos gravados — clique nele para abrir o navegador de conjuntos de dados e, em seguida, selecione “Iniciar treinamento” na aba Treinamento.

Adapte-se ao seu sotaque, dialeto e ritmo de fala.
As correções são salvas automaticamente — basta continuar usando o aplicativo.
Ajuste fino de LoRA — rápido, eficiente, sem treinamento completo
Seleção automática NVIDIA CUDA (cu128 PyTorch) ou CPU backend
Exporta automaticamente o modelo treinado para GGUF quando concluído
Seus dados de voz nunca saem do seu dispositivo.
Gratuito para cada licença paga

⌨️

Teclado de Voz e Injeção Direta de Texto

Mantenha a tecla de atalho pressionada, fale, e o texto será inserido onde estiver o cursor — como em um teclado. Funciona em navegadores, IDEs, terminais, aplicativos de bate-papo, em qualquer lugar onde um campo de texto aceite entrada por teclado.

Tecla de atalho padrão F9 — configurável, gravar ao manter pressionado ou alternar
Gatilho opcional com o botão direito do mouse para gravação sem as mãos
Chip de tradução em tempo real — Fale em um idioma, o teclado digitará a tradução. Escolha um ou mais destinos em uma grade de 3 colunas: um por linha, inline.EN: … || PL: …), ou apenas o primeiro alvo.
Funciona com qualquer campo de texto, editor, terminal ou chat
X11 e Wayland no Linux, entrada nativa no Windows

📚

Contexto e Terminologia de Palavras-Chave

Um campo, duas utilidades. Violar a imparcialidade ASR em relação a nomes próprios, marcas e jargões — evita que “VFIO” seja traduzido incorretamente como “VEAF1”. O mesmo campo também serve como dicionário de terminologia de tradução — Fixe o “Brethof Voice” para que permaneça como “Brethof Voice” em todos os idiomas de destino.

Adicione termos em Configurações — um por linha
Melhora o reconhecimento de nomes próprios e abreviações
Preserva os nomes de marcas e termos técnicos nas traduções
Não é necessário retreinamento — é aplicado no momento da inferência

🤖

Servidor MCP para agentes de IA Planos pagos

O mesmo binário que executa a interface gráfica pode funcionar como servidor do Protocolo de Contexto de Modelo — 19 ferramentas que oferecem funcionalidades de ASR e MT para Claude Desktop, Claude Code, Cursor, Cline ou qualquer agente compatível com MCP. A transmissão é feita por stdio: sem porta, sem firewall, sem vinculação a localhost. O agente controla todo o ciclo de vida.

Transcreva arquivos de áudio/vídeo, gravações de microfone ou áudio do sistema
Traduza texto, SRT ou VTT (modo bilíngue suportado)
Ative ou desative o dispositivo de processamento ASR ou MT dinamicamente
Liste e alterne os perfis de voz pessoais
Leia/escreva qualquer configuração do aplicativo a partir do agente

Executar brethof-voice --mcp e o agente se conecta por meio de stdio. É necessária uma licença paga — usuários de teste não podem iniciar o servidor.

Tudo em Um único aplicativo

Privacidade Total

Aceleração por GPU

Transcrição off-line — 30 idiomas + 22 dialetos chineses

Tradução off-line — 38 idiomas Novidades na versão 2.0.0

Dois tamanhos de modelo

Redução de ruído por IA

Treinamento Personalizado de Voz

Teclado de Voz e Injeção Direta de Texto

Contexto e Terminologia de Palavras-Chave

Servidor MCP para agentes de IA Planos pagos

Pronto para experimentá-lo?

Tudo o que construímos

Brethof Voice Pro

Brethof-Mind

Modelos 3D

Impressão 3D

Nova

Listas incríveis

Guias

Fluxos de trabalho do ComfyUI

Lista de classificação anti-dev

Sobre o Brethof AI