Caratteristiche — Brethof Voice Pro

🔒

Privacy assoluta

Ogni parola che pronunciate viene elaborata sul vostro dispositivo. Nessun audio, testo o metadata viene trasmesso a nessun server. Non esiste un backend cloud, né telemetria, né analisi, né funzione di ritorno automatico.

Nessuna chiamata di rete durante la trascrizione
Modelli salvati localmente dopo un download una tantum
Motore open source Qwen3-ASR — completamente tracciabile

⚡

Accelerazione GPU

Brethof Voice Pro utilizza il motore ottimizzato per GGUF insieme a llama.cpp per garantire un’elaborazione estremamente veloce. Supporta di default tutti e tre i principali produttori di GPU.

NVIDIA — Accelerazione via Vulkan (serie GTX 10 e versioni successive)
AMD — Accelerazione via Vulkan (serie RX 500 e versioni successive)
Intel — Accelerazione Vulkan (GPU Arc e grafica integrata)
Fallback su CPU — funziona senza GPU, ma più lentamente

🌐

Trascrizione offline — 30 lingue + 22 dialetti cinesi

Funziona grazie a Qwen3-ASR tramite llama.cpp. Imposta una lingua specifica per ottenere la massima precisione, oppure lascia che il motore la rilevi automaticamente. Ogni parola rimane sul tuo dispositivo.

IngleseCineseCantoneseArabo TedescoFranceseSpagnoloPortoghese ItalianoOlandeseRussoIndonesiano CoreanoThailandeseVietnamitaGiapponese TurcoNon disponibileMalesianoSvedese DaneseFinlandesePolaccoCeco FilippinoPersianoGrecoRumeno UnghereseMacedone

Oltre a ciò, vengono riconosciuti automaticamente 22 dialetti regionali cinesi (Anhui, Dongbei, Fujian, Henan, Hunan, Shandong, Sichuan, Wu, Minnan e altri) quando la lingua è impostata su cinese o in modalità rilevamento automatico.

💬

Traduzione offline — 38 lingue Novità in v2.0.0

Traduca qualsiasi trascrizione, output da tastiera vocale, testo semplice o file di sottotitoli — interamente sul suo computer. Supportato da Tencent Hunyuan MT2Su FLORES-200 (XCOMET-XXL) il livello di qualità raggiunge 97,9% di Google Gemini 3.1 Pro E il modello compatto Fast raggiunge l’89,9% di precisione, superando Gemini 3.1 Pro nei test sul mondo reale (WildMTBench) e nella traduzione di lingue minoritarie.

CineseIngleseFrancesePortoghese SpagnoloGiapponeseTurcoRusso AraboCoreanoThailandeseItaliano TedescoVietnamitaMalesianoIndonesiano FilippinoNon disponibileTraduzione in cinesePolacco CecoOlandeseKhmerBirmano PersianoGujaratiUrduTelugu MarathiEbraicoBengaliTamil UcrainoCantoneseTibetanoKazako MongoloUiguro

Trascrivere + tradurre — Scegliete una lingua di destinazione nella finestra emergente di Trascrizione; Qwen3-ASR effettua la trascrizione, Hunyuan MT2 effettua la traduzione, entrambi i risultati vengono visualizzati uno accanto all’altro.
Traduzione della tastiera vocale — parlare, selezionare obiettivi da una griglia linguistica a 3 colonne, la tastiera digita la traduzione
Traduttore di sottotitoli — File SRT/VTT in qualsiasi delle 38 lingue, con modalità bilingue opzionale (testo originale + traduzione per ogni indicazione).
Due livelli di modello — Velocità: circa 1 GB, in meno di un secondo su CPU o GPU; Qualità: circa 4,3 GB, in meno di un secondo su GPU
Scegliere dispositivo in modo indipendente — esegui l’ASR su Vulkan 0, la traduzione su Vulkan 1, o entrambi sulla CPU

📈

Due dimensioni del modello

Scegliete il bilanciamento tra precisione, velocità e VRAM che si adatta al vostro computer. Entrambi utilizzano la stessa architettura Qwen3-ASR; potete passare da un modello all’altro in qualsiasi momento tramite Impostazioni → Modelli.

0,6 miliardi — Piccolo, veloce, funziona su GPU integrate o su qualsiasi scheda Vulkan da 4 GB in su. La configurazione predefinita consigliata per i laptop.
1,7 miliardi — Maggiore dimensione e maggiore precisione con audio accentato o rumoroso. Funziona bene con 6 GB+ di VRAM. È all’avanguardia tra i sistemi ASR open source.

Download opzionale di aggiornamenti su richiesta da Impostazioni → Modelli: Allineatore Forzato (~540 MB) per i timestamp a livello di parola, Hunyuan MT2 Fast (~1 GB) o Qualità (~4,3 GB) per la traduzione.

🎵

Riduzione del rumore tramite intelligenza artificiale

Funzione opzionale di riduzione del rumore DeepFilter per registrazioni effettuate in ambienti rumorosi: disattivata per impostazione predefinita, può essere abilitata tramite il pannello emergente “Rumore”. Ometterla nelle registrazioni con microfoni puliti migliora addirittura la qualità (DeepFilter potrebbe elaborare eccessivamente audio breve e pulito).

Elimina il rumore di fondo, i clic della tastiera e l’eco nella stanza
Attenuazione configurabile
Non è necessario alcun hardware aggiuntivo
Disattivato per impostazione predefinita: abilitare per registrazione o sempre attivo

🎓

Addestramento personale della voce

Adatta il modello alla tua voce utilizzando LoRA: l’elaborazione avviene interamente sul tuo dispositivo. Ogni volta che correggi una parola riconosciuta erroneamente, la coppia {clip, correzione} viene salvata nel tuo dataset di addestramento locale. La scheda di addestramento nella finestra principale mostra in un colpo d’occhio il numero totale di campioni e i minuti trascorsi; fai clic su di essa per aprire il browser del dataset, poi seleziona “Inizia l’addestramento” nella scheda Addestramento.

Si adatta al tuo accento, dialetto e ritmo di parlata.
Le correzioni vengono salvate automaticamente: basta continuare a utilizzare l’app.
Addestramento fine-tuning con LoRA: veloce, efficiente, senza necessità di riaddestramento completo
Sceglie automaticamente NVIDIA CUDA (cu128 PyTorch) oppure CPU backend
Esporta automaticamente il modello addestrato in formato GGUF una volta completata l’operazione.
I tuoi dati vocali non lasciano mai il tuo dispositivo.
Gratuito con ogni licenza a pagamento

⌨️

Tastiera vocale e iniezione diretta di testo

Trattenete la tastiera di scelta rapida, parlate e il testo verrà inserito dove si trova il cursore, proprio come con una tastiera. Funziona nei browser, negli IDE, nei terminali, nelle applicazioni di chat, ovunque un campo di testo accetti l’input da tastiera.

Tasto di scelta predefinito F9 — configurabile, registrazione continua o modalità interattiva
Attivazione opzionale tramite il tasto destro del mouse per la registrazione a mani libere
Chip di traduzione in tempo reale — Parlate in una lingua, la tastiera inserirà la traduzione. Scegliete uno o più destinatari da una griglia a 3 colonne: uno per riga, in linea.EN: … || PL: …), oppure solo il primo obiettivo.
Funziona con qualsiasi campo di testo, editor, terminale o chat
X11 e Wayland su Linux, input nativo su Windows

📚

Contesto e terminologia delle parole chiave

Un unico strumento, due utilizzi. Applicare un bias ASR Per i nomi propri, i nomi di marca e il gergo tecnico: riduce il rischio che “VFIO” venga tradotto erroneamente in “VEAF1”. Lo stesso campo serve anche per Dizionario di terminologia per la traduzione — Assegnare il pin “Brethof Voice” per mantenere “Brethof Voice” in ogni lingua di destinazione.

Aggiungere termini in Impostazioni: uno per riga
Migliora il riconoscimento dei nomi propri e delle abbreviazioni
Mantiene i nomi dei marchi e i termini tecnici nelle traduzioni
Non è necessario alcun riaddestramento: viene applicato al momento dell’inferenza.

🤖

MCP Server per agenti AI Piani a pagamento

Lo stesso file binario che esegue l’interfaccia grafica può funzionare anche come server Model Context Protocol: 19 strumenti che mettono a disposizione funzionalità di ASR e MT per Claude Desktop, Claude Code, Cursor, Cline o qualsiasi agente compatibile con MCP. Il trasferimento avviene tramite stdio: nessuna porta, nessun firewall, nessuna connessione a localhost. È l’agente a gestire l’intero ciclo di vita del servizio.

Trascrivere file audio/video, registrazioni del microfono o audio di sistema
Traduci testo, SRT o VTT (supportato il modalità bilingue)
Passare in tempo reale tra il dispositivo di elaborazione ASR e quello di MT
Elenco e cambio dei profili vocali personali
Leggi/scrivi qualsiasi impostazione dell’applicazione dall’agente

Eseguire brethof-voice --mcp L’agente si connette tramite stdio. È necessaria una licenza a pagamento: gli utenti in prova non possono avviare il server.

Tutto in Un’unica applicazione

Privacy assoluta

Accelerazione GPU

Trascrizione offline — 30 lingue + 22 dialetti cinesi

Traduzione offline — 38 lingue Novità in v2.0.0

Due dimensioni del modello

Riduzione del rumore tramite intelligenza artificiale

Addestramento personale della voce

Tastiera vocale e iniezione diretta di testo

Contesto e terminologia delle parole chiave

MCP Server per agenti AI Piani a pagamento

Pronto a provarlo?

Tutto ciò che creiamo

Brethof Voice Pro

Brethof-Mind

Modelli 3D

Stampa 3D

Nova

Elenchi fantastici

Guide

Flussi di lavoro di ComfyUI

Classifica dei livelli anti-dev

Informazioni su Brethof AI