NUOVO · v2.0.0

Tutto in Un’unica applicazione

Trascrivere 30 lingue + 22 dialetti cinesi

Traduci 38 lingue, completamente offline

Ora di registrazione Crea i tuoi sottotitoli personali

Server MCP Parla con esso tramite il tuo stack AI

Funziona in locale, anche su laptopNessuna sottoscrizione necessariaProva gratuita di 14 giorni

Brethof Voice Pro — Main Screen
Brethof Voice Pro — Recording
🔒

Privacy assoluta

Ogni parola che pronunciate viene elaborata sul vostro dispositivo. Nessun audio, testo o metadata viene trasmesso a nessun server. Non esiste un backend cloud, né telemetria, né analisi, né funzione di ritorno automatico.

  • Nessuna chiamata di rete durante la trascrizione
  • Modelli salvati localmente dopo un download una tantum
  • Motore open source Qwen3-ASR — completamente tracciabile

Accelerazione GPU

Brethof Voice Pro utilizza il motore ottimizzato per GGUF insieme a llama.cpp per garantire un’elaborazione estremamente veloce. Supporta di default tutti e tre i principali produttori di GPU.

  • NVIDIA — Accelerazione via Vulkan (serie GTX 10 e versioni successive)
  • AMD — Accelerazione via Vulkan (serie RX 500 e versioni successive)
  • Intel — Accelerazione Vulkan (GPU Arc e grafica integrata)
  • Fallback su CPU — funziona senza GPU, ma più lentamente
🌐

Trascrizione offline — 30 lingue + 22 dialetti cinesi

Funziona grazie a Qwen3-ASR tramite llama.cpp. Imposta una lingua specifica per ottenere la massima precisione, oppure lascia che il motore la rilevi automaticamente. Ogni parola rimane sul tuo dispositivo.

IngleseCineseCantoneseArabo TedescoFranceseSpagnoloPortoghese ItalianoOlandeseRussoIndonesiano CoreanoThailandeseVietnamitaGiapponese TurcoNon disponibileMalesianoSvedese DaneseFinlandesePolaccoCeco FilippinoPersianoGrecoRumeno UnghereseMacedone

Oltre a ciò, vengono riconosciuti automaticamente 22 dialetti regionali cinesi (Anhui, Dongbei, Fujian, Henan, Hunan, Shandong, Sichuan, Wu, Minnan e altri) quando la lingua è impostata su cinese o in modalità rilevamento automatico.

💬

Traduzione offline — 38 lingue Novità in v2.0.0

Traduca qualsiasi trascrizione, output da tastiera vocale, testo semplice o file di sottotitoli — interamente sul suo computer. Supportato da Tencent Hunyuan MT2Su FLORES-200 (XCOMET-XXL) il livello di qualità raggiunge 97,9% di Google Gemini 3.1 Pro E il modello compatto Fast raggiunge l’89,9% di precisione, superando Gemini 3.1 Pro nei test sul mondo reale (WildMTBench) e nella traduzione di lingue minoritarie.

CineseIngleseFrancesePortoghese SpagnoloGiapponeseTurcoRusso AraboCoreanoThailandeseItaliano TedescoVietnamitaMalesianoIndonesiano FilippinoNon disponibileTraduzione in cinesePolacco CecoOlandeseKhmerBirmano PersianoGujaratiUrduTelugu MarathiEbraicoBengaliTamil UcrainoCantoneseTibetanoKazako MongoloUiguro
  • Trascrivere + tradurre — Scegliete una lingua di destinazione nella finestra emergente di Trascrizione; Qwen3-ASR effettua la trascrizione, Hunyuan MT2 effettua la traduzione, entrambi i risultati vengono visualizzati uno accanto all’altro.
  • Traduzione della tastiera vocale — parlare, selezionare obiettivi da una griglia linguistica a 3 colonne, la tastiera digita la traduzione
  • Traduttore di sottotitoli — File SRT/VTT in qualsiasi delle 38 lingue, con modalità bilingue opzionale (testo originale + traduzione per ogni indicazione).
  • Due livelli di modello — Velocità: circa 1 GB, in meno di un secondo su CPU o GPU; Qualità: circa 4,3 GB, in meno di un secondo su GPU
  • Scegliere dispositivo in modo indipendente — esegui l’ASR su Vulkan 0, la traduzione su Vulkan 1, o entrambi sulla CPU
📈

Due dimensioni del modello

Scegliete il bilanciamento tra precisione, velocità e VRAM che si adatta al vostro computer. Entrambi utilizzano la stessa architettura Qwen3-ASR; potete passare da un modello all’altro in qualsiasi momento tramite Impostazioni → Modelli.

  • 0,6 miliardi — Piccolo, veloce, funziona su GPU integrate o su qualsiasi scheda Vulkan da 4 GB in su. La configurazione predefinita consigliata per i laptop.
  • 1,7 miliardi — Maggiore dimensione e maggiore precisione con audio accentato o rumoroso. Funziona bene con 6 GB+ di VRAM. È all’avanguardia tra i sistemi ASR open source.

Download opzionale di aggiornamenti su richiesta da Impostazioni → Modelli: Allineatore Forzato (~540 MB) per i timestamp a livello di parola, Hunyuan MT2 Fast (~1 GB) o Qualità (~4,3 GB) per la traduzione.

🎵

Riduzione del rumore tramite intelligenza artificiale

Funzione opzionale di riduzione del rumore DeepFilter per registrazioni effettuate in ambienti rumorosi: disattivata per impostazione predefinita, può essere abilitata tramite il pannello emergente “Rumore”. Ometterla nelle registrazioni con microfoni puliti migliora addirittura la qualità (DeepFilter potrebbe elaborare eccessivamente audio breve e pulito).

  • Elimina il rumore di fondo, i clic della tastiera e l’eco nella stanza
  • Attenuazione configurabile
  • Non è necessario alcun hardware aggiuntivo
  • Disattivato per impostazione predefinita: abilitare per registrazione o sempre attivo
🎓

Addestramento personale della voce

Adatta il modello alla tua voce utilizzando LoRA: l’elaborazione avviene interamente sul tuo dispositivo. Ogni volta che correggi una parola riconosciuta erroneamente, la coppia {clip, correzione} viene salvata nel tuo dataset di addestramento locale. La scheda di addestramento nella finestra principale mostra in un colpo d’occhio il numero totale di campioni e i minuti trascorsi; fai clic su di essa per aprire il browser del dataset, poi seleziona “Inizia l’addestramento” nella scheda Addestramento.

  • Si adatta al tuo accento, dialetto e ritmo di parlata.
  • Le correzioni vengono salvate automaticamente: basta continuare a utilizzare l’app.
  • Addestramento fine-tuning con LoRA: veloce, efficiente, senza necessità di riaddestramento completo
  • Sceglie automaticamente NVIDIA CUDA (cu128 PyTorch) oppure CPU backend
  • Esporta automaticamente il modello addestrato in formato GGUF una volta completata l’operazione.
  • I tuoi dati vocali non lasciano mai il tuo dispositivo.
  • Gratuito con ogni licenza a pagamento
⌨️

Tastiera vocale e iniezione diretta di testo

Trattenete la tastiera di scelta rapida, parlate e il testo verrà inserito dove si trova il cursore, proprio come con una tastiera. Funziona nei browser, negli IDE, nei terminali, nelle applicazioni di chat, ovunque un campo di testo accetti l’input da tastiera.

  • Tasto di scelta predefinito F9 — configurabile, registrazione continua o modalità interattiva
  • Attivazione opzionale tramite il tasto destro del mouse per la registrazione a mani libere
  • Chip di traduzione in tempo reale — Parlate in una lingua, la tastiera inserirà la traduzione. Scegliete uno o più destinatari da una griglia a 3 colonne: uno per riga, in linea.EN: … || PL: …), oppure solo il primo obiettivo.
  • Funziona con qualsiasi campo di testo, editor, terminale o chat
  • X11 e Wayland su Linux, input nativo su Windows
📚

Contesto e terminologia delle parole chiave

Un unico strumento, due utilizzi. Applicare un bias ASR Per i nomi propri, i nomi di marca e il gergo tecnico: riduce il rischio che “VFIO” venga tradotto erroneamente in “VEAF1”. Lo stesso campo serve anche per Dizionario di terminologia per la traduzione — Assegnare il pin “Brethof Voice” per mantenere “Brethof Voice” in ogni lingua di destinazione.

  • Aggiungere termini in Impostazioni: uno per riga
  • Migliora il riconoscimento dei nomi propri e delle abbreviazioni
  • Mantiene i nomi dei marchi e i termini tecnici nelle traduzioni
  • Non è necessario alcun riaddestramento: viene applicato al momento dell’inferenza.
🤖

MCP Server per agenti AI Piani a pagamento

Lo stesso file binario che esegue l’interfaccia grafica può funzionare anche come server Model Context Protocol: 19 strumenti che mettono a disposizione funzionalità di ASR e MT per Claude Desktop, Claude Code, Cursor, Cline o qualsiasi agente compatibile con MCP. Il trasferimento avviene tramite stdio: nessuna porta, nessun firewall, nessuna connessione a localhost. È l’agente a gestire l’intero ciclo di vita del servizio.

  • Trascrivere file audio/video, registrazioni del microfono o audio di sistema
  • Traduci testo, SRT o VTT (supportato il modalità bilingue)
  • Passare in tempo reale tra il dispositivo di elaborazione ASR e quello di MT
  • Elenco e cambio dei profili vocali personali
  • Leggi/scrivi qualsiasi impostazione dell’applicazione dall’agente

Eseguire brethof-voice --mcp L’agente si connette tramite stdio. È necessaria una licenza a pagamento: gli utenti in prova non possono avviare il server.

Pronto a provarlo?

Prova gratuita di 14 giorni. Tutte le funzionalità disponibili. Nessuna carta di credito richiesta.

Tutto ciò che creiamo

Esterno:   YouTube · GitHub