Cechy — Brethof Voice Pro

🔒

Pełna prywatność

Każde słowo, które wypowiesz, jest przetwarzane na twoim urządzeniu. Żaden dźwięk, tekst ani metadane nie są przekazywane na żaden serwer. Nie ma chmurowego backendu, żadnej telemetrii, żadnych analiz ani funkcji powrotu do serwera.

Brak żadnych połączeń sieciowych podczas transkrypcji
Modele przechowywane lokalnie po jednorazowym pobraniu
Otwarty silnik Qwen3-ASR — w pełni poddawalny audytowi

⚡

Przyspieszenie za pomocą GPU

Brethof Voice Pro wykorzystuje zoptymalizowany silnik GGUF w połączeniu z llama.cpp, dzięki czemu zapewnia błyskawiczne przetwarzanie. Od razu obsługuje wszystkich trzech głównych producentów kart graficznych.

NVIDIA — Przyspieszenie za pomocą Vulkan (seria GTX 10 i nowsze)
AMD — Przyspieszenie za pomocą Vulkan (seria RX 500 i nowsze)
Intel — Przyspieszenie za pomocą Vulkan (karty graficzne Arc oraz grafika zintegrowana)
Awaryjny tryb CPU — działa bez karty graficznej, po prostu wolniej

🌐

Transkrypcja offline — 30 języków + 22 dialekty chińskie

Zaawansowana technologia tłumaczenia dostarczana przez Qwen3-ASR przy użyciu llama.cpp. Ustal język docelowy dla maksymalnej dokładności lub pozwól silnikowi na automatyczne wykrycie języka. Wszystkie słowa pozostają na twoim komputerze.

angielskichińskikantoneskiarabski niemieckiFrancuskihiszpańskiportugalski WłoskiholenderskiRosyjskiindonezyjski koreańskiTajskiWietnamskijapoński TureckiNie rozumiem.MalajskiSzwedzki duńskifińskiPolskiCzeski Filipińskiperskigreckirumuński węgierskiMacedoński

Ponadto 22 chińskie dialekty regionalne (Anhui, Dongbei, Fujian, Henan, Hunan, Shandong, Sichuan, Wu, Minnan i inne), które są automatycznie rozpoznawane, gdy język ustawiono na chiński lub w trybie automatycznego wykrywania.

💬

Tłumaczenie offline — 38 języków Nowości w wersji 2.0.0

Tłumacz dowolne transkrypcje, wyniki z klawiatury głosowej, tekst prosty lub pliki napisów — wyłącznie na twoim komputerze. Napędzane przez Tencent Hunyuan MT2: w FLORES-200 (XCOMET-XXL) poziom jakości osiąga 97,9% Google Gemini 3.1 Pro A kompaktowy model Fast osiąga 89,9%, przewyższając Gemini 3.1 Pro w testach w rzeczywistych warunkach (WildMTBench) oraz przy tłumaczeniach języków mniejszościowych.

chińskiangielskiFrancuskiportugalski hiszpańskijapońskiTureckiRosyjski arabskikoreańskiTajskiWłoski niemieckiWietnamskiMalajskiindonezyjski FilipińskiNie rozumiem.Tłumaczenie z języka chińskiegoPolski CzeskiholenderskiKhmerbirmijski perskiGudżaratiUrduTelugu marathihebrajskibengalskiTamilski ukraińskikantoneskitybetańskiKazachski MongolskiUjgurzy

Transkrypcja + tłumaczenie — wybierz język docelowy w oknie Transcribe; ASR dokonuje transkrypcji, MT tłumaczy, oba funkcjonują obok siebie
Tłumaczenie klawiatury głosowej — mówić, wybierać cele z 3-kolumnowej siatki języków, klawiatura wpisuje tłumaczenie
Tłumacz napisów — Pliki SRT/VTT w dowolnym z 38 języków, z opcjonalnym trybem dwujęzycznym (źródło + tłumaczenie na każdą klatkę).
Dwa poziomy modeli — Szybkość (~1 GB): mniej niż sekunda na CPU lub GPU; Jakość (~4,3 GB): mniej niż sekunda na GPU
Niezależny wybieracz urządzeń — uruchom ASR na Vulkan 0, tłumaczenie na Vulkan 1 lub oba na CPU

📈

Dwa rozmiary modeli

Wybierz taką równowagę między dokładnością, szybkością a ilością pamięci VRAM, która pasuje do twojego komputera. Obie wersje wykorzystują tę samą architekturę Qwen3-ASR; można je zmieniać w dowolnym momencie z opcji Ustawienia → Modele.

0,6 miliarda — mały, szybki, działa na zintegrowanych kartach GPU lub dowolnej karcie Vulkan o pojemności co najmniej 4 GB. Zalecany standardowy wybór dla laptopów.
1,7 miliarda — wyższa rozdzielczość i dokładność przy dźwięku z akcentami lub z szumem. Działa sprawnie przy 6 GB+ pamięci VRAM. Najnowocześniejszy wśród otwartych systemów ASR.

Dodatkowe moduły można pobrać na żądanie z Ustawień → Modele: Forced Aligner (~540 MB) dla czasów oznaczania na poziomie słów, Hunyuan MT2 Fast (~1 GB) lub Jakość (~4,3 GB) na potrzeby tłumaczenia.

🎵

Szybkie redukowanie szumów AI

Opcjonalne tłumienie szumów za pomocą DeepFilter dla nagrań dokonanych w hałaśliwych pomieszczeniach — wyłączone domyślnie, można je włączyć z menu „Szum”. Pomijanie tej funkcji przy czystych nagraniach mikrofonem może nawet poprawić jakość (DeepFilter może nadmiernie przetwarzać krótkie, czyste dźwięki).

Usuwa szumy tła, dźwięki naciskania klawiszy oraz echa w pomieszczeniu
Dostosowalna atenuacja
Nie potrzebne jest żadne dodatkowe sprzętowanie
Wyłączone domyślnie — włączaj na każdą nagrywanie lub cały czas

🎓

Osobiste szkolenie głosu

Dostosuj model do swojego głosu za pomocą LoRA — proces odbywa się w całości na twoim komputerze. Za każdym razem, gdy poprawiasz błędnie rozpoznane słowo, para {clip, correction} jest zapisywana do twojego lokalnego zestawu danych treningowych. Karta treningu w głównym oknie pokazuje od razu łączną liczbę próbek oraz czas nagrania — kliknij ją, aby otworzyć przeglądarkę zestawu danych, a następnie wybierz „Rozpocznij trening” na karcie Trening.

Dostosowuje się do twojego akcentu, dialektu i rytmu mówienia.
Korekty są automatycznie zapisywane — po prostu kontynuuj używanie aplikacji.
Doprecyzowanie za pomocą LoRA — szybkie, efektywne, bez konieczności pełnego ponownego szkolenia
Automatyczne wybieranie NVIDIA CUDA (cu128 PyTorch) albo CPU serwer tła
Automatycznie eksportuje przeszkolony model do formatu GGUF po zakończeniu pracy.
Twoje dane głosowe nigdy nie opuszczają twojego komputera.
Darmowe przy każdej licencji płatnej

⌨️

Klawiatura głosowa i bezpośrednia insercja tekstu

Utrzymaj klawisz szybkiego dostępu, mów, a tekst pojawi się tam, gdzie znajduje się kursor — jak przy użyciu klawiatury. Działa w przeglądarkach, IDE, terminalach, aplikacjach do czatowania, wszędzie tam, gdzie pole tekstowe przyjmuje dane z klawiatury.

Domyślny szybki przycisk F9 — konfigurowalne, nagrywanie przy naciśnięciu lub włączenie/wyłączenie
Opcjonalne uruchomienie przyciskiem prawym myszy do nagrywania bez użycia rąk
Czip tłumaczenia na żywo — Mów w jednym języku, a klawiatura wpisze tłumaczenie. Wybierz jeden lub więcej języków docelowych z 3-kolumnowej siatki: po jednym na linii, w formie inline.EN: … || PL: …), albo tylko pierwszy cel.
Działa z każdym polem tekstowym, edytorem, terminalem lub czatem.
X11 i Wayland w Linuxie, natywny wprowadzanie danych na Windowsie

📚

Kontekst i terminologia słów kluczowych

Jedno urządzenie, dwa zastosowania. Dostosuj ASR w przypadku nazw własnych, nazw marek i żargonu – zapobiega błędnemu tłumaczeniu „VFIO” jako „VEAF1”. To samo pole służy również jako słownik terminologii tłumaczeniowej — Przytwierdź „Brethof Voice” aby w każdym języku docelowym pozostało jako „Brethof Voice”.

Dodaj terminy w Ustawieniach — po jednym na linii
Poprawia rozpoznawanie nazw własnych i skrótów.
Zachowuje nazwy marek oraz terminy techniczne w tłumaczeniach
Nie wymagane jest ponowne szkolenie — stosuje się go w czasie wykonywania predykcji

🤖

Serwer MCP dla agentów AI Planы płatne

Ten sam plik binarny, który uruchamia interfejs graficzny, może działać jako serwer Model Context Protocol – 19 narzędzi umożliwiających dostęp do funkcji ASR i MT w aplikacjach Claude Desktop, Claude Code, Cursor, Cline lub dowolnym agencie kompatybilnym z MCP. Transport odbywa się przez stdio: bez portu, bez firewalla, bez powiązania z localhost. Agent kontroluje cały cykl życia aplikacji.

Transkrybuj pliki audio/video, nagrania z mikrofonu lub dźwięk systemowy
Tłumacz teksty, pliki SRT lub VTT (obsługiwany tryb dwujęzyczny)
Przełączaj urządzenie obliczeniowe ASR lub MT w trakcie pracy
Lista i przełączanie profili głosowych osobistych
Czytaj/wzoruj dowolne ustawienia aplikacji z agenta

Uruchom brethof-voice --mcp A agent łączy się przez stdio. Wymagana jest płatna licencja — użytkownicy próbni nie mogą uruchomić serwera.

Wszystko w Jedna aplikacja

Pełna prywatność

Przyspieszenie za pomocą GPU

Transkrypcja offline — 30 języków + 22 dialekty chińskie

Tłumaczenie offline — 38 języków Nowości w wersji 2.0.0

Dwa rozmiary modeli

Szybkie redukowanie szumów AI

Osobiste szkolenie głosu

Klawiatura głosowa i bezpośrednia insercja tekstu

Kontekst i terminologia słów kluczowych

Serwer MCP dla agentów AI Planы płatne

Gotowy, by to wypróbować?

Wszystko, co tworzymy

Brethof Voice Pro

Brethof-Mind

Modele 3D

Druk 3D

Nova

Niesamowite listy

Przewodniki

Przepływy pracy ComfyUI

Lista rankingowa anty-dev

O Brethof AI