Eigenschaften – Brethof Voice Pro

🔒

Vollständige Privatsphäre

Jedes Wort, das Sie aussprechen, wird auf Ihrem Gerät verarbeitet. Kein Audio, kein Text und keine Metadaten werden jemals an einen Server übertragen. Es gibt weder einen Cloud-Backend-Service noch Telemetriedaten, Analysefunktionen oder eine Rückmeldefunktion.

Keine Netzwerkaufrufe während der Transkription
Modelle, die nach einer einmaligen Herunterladung lokal gespeichert werden
Open-Source-Qwen3-ASR-Engine – vollständig überprüfbar

⚡

GPU-Beschleunigung

Brethof Voice Pro nutzt den für GGUF optimierten Engine mit llama.cpp, um blitzschnelle Inferenzleistungen zu erzielen. Es unterstützt von Anfang an alle drei großen GPU-Hersteller.

NVIDIA — Vulkan-Beschleunigung (GTX 10-Serie und neuer)
AMD — Vulkan-Beschleunigung (RX 500-Serie und neuer)
Intel — Vulkan-Beschleunigung (Arc-GPUs und integrierte Grafikchips)
CPU-Fallback — läuft ohne GPU, ist nur langsamer

🌐

Offline-Transkription – 30 Sprachen + 22 chinesische Dialekte

Angetrieben von Qwen3-ASR über llama.cpp. Wählen Sie eine bestimmte Sprache für maximale Genauigkeit aus oder überlassen Sie es dem Motor, sie automatisch zu erkennen. Jedes Wort bleibt auf Ihrem Gerät.

EnglischChinesischKantonesischArabisch DeutschFranzösischSpanischPortugiesisch ItalienischNiederländischRussischIndonesisch KoreanischThailändischVietnamesischJapanisch TürkischHindiMalaiischSchwedisch DänischFinnischPolnischTschechisch FilipinoPersischGriechischRumänisch Ungarischmazedonisch

Zusätzlich 22 chinesische Dialekte (Anhui, Dongbei, Fujian, Henan, Hunan, Shandong, Sichuan, Wu, Minnan und weitere), die automatisch erkannt werden, wenn die Sprache auf Chinesisch oder Automatisches Erkennen eingestellt ist.

💬

Offline-Übersetzung – 38 Sprachen Neu in v2.0.0

Übersetzen Sie jegliche Transkription, Sprach-Tastatur-Ausgabe, reinen Text oder Untertiteldatei – vollständig auf Ihrem Gerät. Angetrieben von Tencent Hunyuan MT2: Bei FLORES-200 (XCOMET-XXL) erreicht die Qualitätsebene 97,9 % von Google Gemini 3.1 Pro Und die kompakte Fast-Klasse erreicht 89,9 % – sie übertrifft Gemini 3.1 Pro bei der Anwendung in der Realwelt (WildMTBench) sowie bei der Übersetzung von Minderheitensprachen.

ChinesischEnglischFranzösischPortugiesisch SpanischJapanischTürkischRussisch ArabischKoreanischThailändischItalienisch DeutschVietnamesischMalaiischIndonesisch FilipinoHindiChinesische ÜbersetzungPolnisch TschechischNiederländischKmerischBirmanisch PersischGujaratiUrduTelugu MarathiHebräischBengalischTamilisch UkrainischKantonesischTibetischKasachisch MongolischUigurisch

Transkribieren + übersetzen — Wählen Sie in dem Transcribe-Dialogfeld eine Zielsprache aus; ASR führt die Transkription durch, MT übersetzt, beides wird nebeneinander angezeigt.
Übersetzung der Sprach-Tastatur — Sprechen, Ziele aus einem 3-spaltigen Sprachgitter auswählen, die Tastatur gibt die Übersetzung ein
Untertiteltolker — SRT/VTT-Dateien in 38 Sprachen, inklusive optionaler zweisprachiger Modus (Quelle + Übersetzung pro Untertitelzeile)
Zwei Modellstufen — Schnell (~1 GB) – unter einer Sekunde auf CPU oder GPU; Qualität (~4,3 GB) – unter einer Sekunde auf GPU
Unabhängiger Geräteauswähler — Führen Sie die ASR auf Vulkan 0 durch, die Übersetzung auf Vulkan 1 oder beides auf der CPU.

📈

Zwei Modellgrößen

Wählen Sie das Verhältnis aus Genauigkeit, Geschwindigkeit und VRAM aus, das zu Ihrem Gerät passt. Beide nutzen dieselbe Qwen3-ASR-Architektur; wechseln Sie jederzeit über Einstellungen → Modelle.

0,6 Milliarden — Klein, schnell, läuft auf integrierten GPUs oder jeder GPU mit 4 GB+ Speicher und Vulkan-Unterstützung. Empfohlene Standardauswahl für Laptops.
1,7 Milliarden — Größerer Umfang, höhere Genauigkeit bei akzentuiertem oder störanfälligem Audio. Funktioniert problemlos mit 6 GB+ VRAM. Spitzentechnologie unter den offenen ASR-Systemen.

Optionaler Download von Erweiterungen auf Anfrage über Einstellungen → Modelle: Gezwungener Ausrichter (~540 MB) für Zeitsignale auf Wortebene. Hunyuan MT2 Fast (~1 GB) oder Qualität (~4,3 GB) für die Übersetzung.

🎵

KI-basierte Rauschreduzierung

Optionelle DeepFilter-Rauschunterdrückung für Aufnahmen in lauten Räumen – standardmäßig deaktiviert, kann über das Pop-up-Menü „Rauschen“ aktiviert werden. Die Deaktivierung bei sauberen Mikrofonaufnahmen verbessert tatsächlich die Qualität (DeepFilter kann kurze, saubere Audiodateien übermäßig verarbeiten).

Entfernt Hintergrundgeräusche, Tastaturklicks sowie Raumecho.
Einstellbare Dämpfung
Keine zusätzliche Hardware erforderlich
Standardmäßig ausgeschaltet – per Aufnahme umschalten oder ständig eingeschaltet

🎓

Persönliches Stimmtraining

Passen Sie das Modell mit LoRA an Ihre eigene Stimme an – die Verarbeitung erfolgt vollständig auf Ihrem Gerät. Jedes Mal, wenn Sie ein falsch erkanntes Wort korrigieren, wird das {clip, Korrektur}-Paar in Ihr lokales Trainingsdatensatz gespeichert. Auf der Trainingskarte im Hauptfenster werden die Gesamtanzahl der Beispiele sowie die aufgenommene Zeit auf einen Blick angezeigt – klicken Sie darauf, um den Datensatzbrowser zu öffnen, und wählen Sie anschließend „Training starten“ in der Trainingsleiste.

Passen Sie sich Ihrem Akzent, Dialekt und Sprechrhythmus an.
Die Korrekturen werden automatisch gespeichert – nutzen Sie einfach weiterhin die App.
LoRA-Feinabstimmung – schnell, effizient, ohne vollständige Neutraining
Automatische Auswahl NVIDIA CUDA (cu128 PyTorch) oder CPU Backend
Exportiert das trainierte Modell automatisch nach Abschluss in GGUF.
Ihre Stimmdaten verlassen niemals Ihr Gerät.
Kostenlos mit jeder bezahlten Lizenz

⌨️

Stimmtastatur & direkte Texteingabe

Halten Sie die Schnelltaste gedrückt, sprechen Sie, und der Text wird an die Stelle gebracht, an der sich Ihr Cursor befindet – genauso wie bei einer Tastatur. Es funktioniert in Browsern, IDEs, Terminals, Chat-Apps – überall, wo ein Textfeld Tastatureingaben entgegennimmt.

Standard-Tastenkombination F9 – einstellbar, Aufnahmefunktion per Drücken oder Schalten
Optionale Auslösung per rechtem Mausknopf für kabellose Aufnahme
Chip für Echtzeitübersetzung — Sprechen Sie in einer Sprache, die Tastatur gibt die Übersetzung ein. Wählen Sie eine oder mehrere Zielsprachen aus einem 3-spaltigen Grid aus: jeweils eine pro Zeile, inline.EN: … || PL: …), oder nur das erste Ziel.
Funktioniert mit jedem Textfeld, Editor, Terminal oder Chat.
X11 und Wayland unter Linux, natives Eingabesystem unter Windows

📚

Hotword-Kontext und Terminologie

Ein Feld, zwei Verwendungen. Bias die ASR bei Eigennamen, Markennamen und Fachbegriffen – verhindert, dass „VFIO“ fälschlicherweise als „VEAF1“ übersetzt wird. Dasselbe Feld dient außerdem als Wörterbuch für Übersetzungsterminologie — Markieren Sie „Brethof Voice“ damit es in jeder Zielsprache weiterhin als „Brethof Voice“ angezeigt wird.

Fügen Sie Begriffe in Einstellungen hinzu — einen pro Zeile
Verbessert die Erkennung von Eigennamen und Abkürzungen
Markennamen und technische Begriffe bleiben in den Übersetzungen unverändert.
Keine Neutraining erforderlich – wird zur Auswertung angewendet

🤖

MCP Server für KI-Agenten Kaufpläne

Derselbe Binärdatei, der die GUI ausführt, kann auch als Server für das Model Context Protocol genutzt werden – 19 Tools, die ASR und MT für Claude Desktop, Claude Code, Cursor, Cline oder jeden MCP-kompatiblen Agenten bereitstellen. Die Kommunikation erfolgt über stdio: kein Port, keine Firewall, keine Bindung an localhost. Der Agent steuert den gesamten Lebenszyklus.

Transkribieren Sie Audio-/Video-Dateien, Mikrofonaufnahmen oder Systemgeräusche.
Übersetzen Sie Texte, SRT- oder VTT-Dateien (bilingualer Modus unterstützt).
ASR- oder MT-Berechnungsgerät im Laufbetrieb wechseln
Liste und Wechsel der persönlichen Stimmenprofile
Lesen/Schreiben von beliebigen App-Einstellungen über den Agenten

Ausführen brethof-voice --mcp Und der Agent stellt eine Verbindung über stdio her. Eine kostenpflichtige Lizenz ist erforderlich – Testnutzer können den Server nicht starten.

Alles in Eine App

Vollständige Privatsphäre

GPU-Beschleunigung

Offline-Transkription – 30 Sprachen + 22 chinesische Dialekte

Offline-Übersetzung – 38 Sprachen Neu in v2.0.0

Zwei Modellgrößen

KI-basierte Rauschreduzierung

Persönliches Stimmtraining

Stimmtastatur & direkte Texteingabe

Hotword-Kontext und Terminologie

MCP Server für KI-Agenten Kaufpläne

Sind Sie bereit, es auszuprobieren?

Alles, was wir entwickeln

Brethof Voice Pro

Brethof-Mind

3D-Modelle

3D-Druck

Nova

Tolle Listen

Leitfäden

ComfyUI-Arbeitsabläufe

Anti-Dev-Rangliste

Über Brethof AI