Características — Brethof Voice Pro

🔒

Privacidad total

Cada palabra que dice es procesada en su dispositivo. Ningún audio, texto ni metadatos se transmite a ningún servidor. No existe un backend en la nube, ni telemetría, ni análisis, ni comunicación de vuelta al servidor.

Cero llamadas a la red durante la transcripción
Modelos almacenados localmente tras una descarga única
Motor de código abierto Qwen3-ASR: completamente auditable

⚡

Aceleración por GPU

Brethof Voice Pro utiliza el motor optimizado para GGUF con llama.cpp para lograr una inferencia extremadamente rápida. Soporta de forma nativa a los tres principales fabricantes de GPU.

NVIDIA — Aceleración por Vulkan (GTX serie 10 y versiones más recientes)
AMD — Aceleración por Vulkan (serie RX 500 y versiones más recientes)
Intel — Aceleración por Vulkan (GPU Arc y gráficos integrados)
Solución de respaldo con CPU — funciona sin GPU, pero más lento.

🌐

Transcripción sin conexión: 30 idiomas + 22 dialectos chinos

Impulsado por Qwen3-ASR a través de llama.cpp. Fije el idioma específico para obtener la máxima precisión, o deje que el motor lo detecte automáticamente. Cada palabra permanece en su equipo.

InglésChinoCantonesaÁrabe AlemánFrancésEspañolPortugués ItalianoNeerlandésRusoIndonesio CoreanoTailandésVietnamitaJaponés TurcoNo entiendo.MalayoSueco DanésFinlandésPolacoCheco FilipinoPersaGriegoRumano HúngaroMacedonio

Además, 22 dialectos regionales chinos (Anhui, Dongbei, Fujian, Henan, Hunan, Shandong, Sichuan, Wu, Minnan y otros) se reconocen automáticamente cuando el idioma está configurado en chino o en modo de detección automática.

💬

Traducción sin conexión: 38 idiomas Novedades en la v2.0.0

Traduzca cualquier transcripción, salida de teclado de voz, texto plano o archivo de subtítulos, todo ello en su propia máquina. Impulsado por Tencent Hunyuan MT2: en FLORES-200 (XCOMET-XXL), el nivel de calidad alcanza 97.9% de Google Gemini 3.1 Pro Y el compacto Fast alcanza un 89,9%, superando a Gemini 3.1 Pro en pruebas del mundo real (WildMTBench) y en la traducción de lenguas minoritarias.

ChinoInglésFrancésPortugués EspañolJaponésTurcoRuso ÁrabeCoreanoTailandésItaliano AlemánVietnamitaMalayoIndonesio FilipinoNo entiendo.Traducción al chinoPolaco ChecoNeerlandésJemerBirmano PersaGujaratiUrduTelugu MarathiHebreoBengalíTamil UcranianoCantonesaTibetanoKazajo MongolUigur

Transcribir + traducir — Elija un idioma de destino en el menú emergente de Transcribir; la ASR realiza la transcripción, la MT realiza la traducción, y ambas funciones se muestran una al lado de la otra.
Traducción del teclado de voz — Habla, elige objetivos de una cuadrícula de idiomas de 3 columnas; el teclado escribe la traducción.
Traductor de subtítulos — Archivos SRT/VTT en cualquiera de los 38 idiomas, con modo bilingüe opcional (texto original + traducción por indicación).
Dos niveles de modelo — Rápido (~1 GB): menos de un segundo en CPU o GPU; Calidad (~4.3 GB): menos de un segundo en GPU
Selector independiente de dispositivos — Ejecutar el ASR en Vulkan 0, la traducción en Vulkan 1, o ambos en la CPU.

📈

Dos tamaños de modelo

Elija el equilibrio entre precisión, velocidad y VRAM que se adapte a su equipo. Ambos utilizan la misma arquitectura Qwen3-ASR; puede cambiarlos en cualquier momento desde Ajustes → Modelos.

0.6 mil millones — Pequeño, rápido; funciona con GPUs integradas o cualquier tarjeta Vulkan de 4 GB o más. Es la opción recomendada por defecto para portátiles.
1.7B — Mayor tamaño y mayor precisión en audio con acentos o ruido. Funciona bien con 6 GB+ de VRAM. Es la mejor opción entre las tecnologías ASR abiertas.

Descarga opcional de complementos bajo demanda desde Ajustes → Modelos: Alineador Forzado (~540 MB) para marcas de tiempo a nivel de palabra. Hunyuan MT2 Rápido (~1 GB) o Calidad (~4.3 GB) para la traducción.

🎵

Reducción de ruido por IA

Supresión opcional de ruido con DeepFilter para grabaciones realizadas en habitaciones ruidosas; está desactivada por defecto y puede activarse desde el menú emergente de Ruido. Omitirla en clips de micrófono sin ruido en realidad mejora la calidad (DeepFilter puede procesar en exceso audio breve y limpio).

Elimina el ruido de fondo, los clics del teclado y el eco en la habitación.
Atenuación configurable
No se necesita hardware adicional.
Desactivado por defecto: activar por grabación o siempre activo

🎓

Entrenamiento personal de voz

Ajuste el modelo con su propia voz mediante LoRA: se ejecuta de forma integral en su equipo. Cada vez que corrige una palabra mal reconocida, la pareja {clip, corrección} se guarda en su conjunto de datos de entrenamiento local. La tarjeta de entrenamiento de la ventana principal muestra de un vistazo el número total de muestras y los minutos grabados; haga clic en ella para abrir el explorador de datos y, a continuación, seleccione “Iniciar entrenamiento” en la pestaña de Entrenamiento.

Adáptese a su acento, dialecto y ritmo de habla.
Las correcciones se guardan automáticamente; simplemente siga utilizando la aplicación.
Ajuste fino de LoRA: rápido, eficiente, sin necesidad de reentrenamiento completo
Selección automática NVIDIA CUDA (cu128 PyTorch) o CPU backend
Exporta automáticamente el modelo entrenado a GGUF una vez finalizado.
Sus datos de voz nunca salen de su equipo.
Gratis con cada licencia de pago

⌨️

Teclado de voz e inyección directa de texto

Mantenga presionada la tecla de acceso rápido, hable y el texto aparecerá dondequiera que esté su cursor, al igual que con un teclado. Funciona en navegadores, IDEs, terminales, aplicaciones de chat y en cualquier lugar donde un campo de texto acepte entrada por teclado.

Tecla de acceso predeterminada F9 — configurable, grabación al mantener presionado o alternar
Disparo opcional con el botón derecho del ratón para grabación sin manos
Chip de traducción en tiempo real — Hable en un idioma, el teclado escribirá la traducción. Elija uno o más destinos de una grilla de 3 columnas: uno por línea, en línea.EN: … || PL: …), o solo el primer objetivo.
Funciona con cualquier campo de texto, editor, terminal o chat.
X11 y Wayland en Linux, entrada nativa en Windows

📚

Contexto y terminología de palabras clave

Un mismo dispositivo, dos usos. Sesgar el ASR En cuanto a los nombres propios, las marcas y el jerga técnica: evita que “VFIO” sea transcrito erróneamente como “VEAF1”. Este mismo campo también sirve como diccionario de terminología de traducción — Fije “Brethof Voice” para que se mantenga como “Brethof Voice” en todos los idiomas de destino.

Agregue términos en Ajustes: uno por línea.
Mejora el reconocimiento de nombres propios y abreviaturas.
Mantiene los nombres de marcas y los términos técnicos en las traducciones.
No se necesita reentrenamiento: se aplica en el momento de la inferencia.

🤖

Servidor MCP para agentes de IA Planes de pago

El mismo binario que ejecuta la interfaz gráfica puede funcionar como servidor del Protocolo de Contexto de Modelo: 19 herramientas que exponen funciones de ASR y MT a Claude Desktop, Claude Code, Cursor, Cline o cualquier agente compatible con MCP. La comunicación se realiza mediante stdio: sin puerto, sin firewall y sin vinculación a localhost. El agente controla todo el ciclo de vida del proceso.

Transcribe archivos de audio/vídeo, grabaciones de micrófono o audio del sistema
Traduzca texto, SRT o VTT (se admite modo bilingüe).
Cambie el dispositivo de procesamiento ASR o MT en tiempo real
Listar e intercambiar perfiles de voz personales
Leer/escribir cualquier configuración de la aplicación desde el agente

Ejecutar brethof-voice --mcp Y el agente se conecta a través de stdio. Se requiere una licencia de pago; los usuarios de prueba no pueden iniciar el servidor.

Todo en Una sola aplicación

Privacidad total

Aceleración por GPU

Transcripción sin conexión: 30 idiomas + 22 dialectos chinos

Traducción sin conexión: 38 idiomas Novedades en la v2.0.0

Dos tamaños de modelo

Reducción de ruido por IA

Entrenamiento personal de voz

Teclado de voz e inyección directa de texto

Contexto y terminología de palabras clave

Servidor MCP para agentes de IA Planes de pago

¿Listo para probarlo?

Todo lo que construimos

Brethof Voice Pro

Brethof-Mind

Modelos 3D

Impresión 3D

Nova

Listas fantásticas

Guías

Flujos de trabajo de ComfyUI

Lista de niveles anti-dev

Acerca de Brethof AI