來自 Brethof Voice Pro 團隊的發布消息、Champions Program 相關新聞、新功能介紹,以及技術開發背後的故事。
Brethof Voice Pro 已不再僅是語音轉文字功能,其 v2.0.0 版本已正式發布。 離線翻譯 由 Tencent 提供技術支援 Hunyuan MT2 — 在 FLORES-200(XCOMET-XXL)中,7B 級別可達到 Google Gemini 3.1 Pro 的 97.9%它在不僅在真實環境測試中,也在少數語言測試中表現優於 Gemini。翻譯過程完全在您的電腦上進行。提供兩種級別的模型,可依需求下載:快速版(約1 GB,使用 CPU 或 GPU 時可在幾分之一秒內完成)以及高品質版(約4.3 GB,使用 GPU 時也在幾分之一秒內完成)。此外還有幾項長期以來眾所期待的新增功能。
v2.0.0 的新功能有什麼?
EN: … || PL: …),或僅選擇第一個目標。translate_text, translate_srt, list_compute_devices, set_compute_device目前工具總數為 19 個。Linux二進位檔案的大小為161 MB,Windows安裝程式的大小則為118 MB。定價相同:個人版49美元,企業版149美元。現有的授權可繼續使用——僅需 下載 v2.0.0 版本 而這些翻譯模型將出現在「設定」→「模型」中。
下載 v2.0.0 →訓練流程已上線。現在可在您的電腦上端到端執行針對您自身聲音的 LoRA 微調——應用程式會自動選擇合適的設定。 NVIDIA CUDA or 中央處理器完成後會自動將訓練好的模型匯出為 GGUF 格式。您在 GUI 中所做的每一項修正都會自動儲存到您的本地訓練資料集中;主視窗中的訓練狀態欄可讓您一目了然地查看總樣本數與訓練時間。
額外好處:由於 llama.cpp 的升級(版本 b9222)修復了長片段中的區塊邊界問題,所有語言的語音鍵盤準確度皆有所提升。每個付費授權均附贈此功能。
兩款新的 MCP 工具已推出: start_transcription 能立即返回工作識別碼,讓工作人員能從事其他工作。 get_transcription_status 進行完成度測試。一次處理一個任務,完成後即顯示結果。大型檔案不再會阻礙代理循環。
此外還有一系列針對字級 SRT/VTT 輸出的修正:不再出現標點符號前的多餘空格,也不再有單獨的句點標記,更無熱詞或上下文字串滲入文字檔中。如此一來字幕更加整潔,且無需人工清理。
完整引擎重寫。Brethof Voice Pro 現在可透過 Qwen3-ASR 進行端到端的處理。 llama.cpp 透過 GGUF 量化權重實現 libmtmdONNX Runtime 已經被移除。其優點在於:安裝體積更小(二進位檔約 83 MB,原本為 400 MB 以上)、冷啟動速度更快,且不再需要處理不同平台上的 CUDA/DirectML 版本問題。
Vulkan會自動偵測您的GPU——無論是NVIDIA、AMD還是Intel Arc——若沒有GPU則會回退至CPU。同一個引擎現在也用於驅動所有後端功能:ASR、語音鍵盤、MCP伺服器,以及(在2.0.0版本中)翻譯功能。
Model Context Protocol 伺服器已啟動。任何符合 MCP 標準的 AI 智能體—— Claude Desktop, Claude Code, 游標, Cline — 可透過 stdio 進行轉錄(無端口、無防火牆)。同一個版本也同時提供了 多 GPU 裝置選擇器 如此一來,您就能選擇哪個 Vulkan GPU 用於執行 ASR,還有可選的方案。 強制對齊工具 為每段轉錄內容添加詞級時間戳的附加元件。
僅限付費版本——若沒有個人版或企業版授權,MCP 伺服器將無法啟動。 brethof-voice --mcp 這就是一行式的呼叫方式。
發布前最常被問到的問題是「macOS何時推出?」答案是:仍在積極開發中。首先會推出採用 Metal 加速的 Apple Silicon 原生版本,之後才是 Intel 版本。預計時間為 2026 年第三季,而我們將在第二季度開放封閉測試。以下是目前的開發進度以及參與測試的註冊方式。
閱讀文章 →Voice Pro 支持即時的個人語音訓練功能。每當您修正被錯誤辨識的單字時,相關的音訊片段與修正內容都會自動儲存到您的本地訓練資料集中。在「訓練」選項卡中只需點擊一次,即可針對您的口音微調 LoRA 模型——應用程式會自動選擇 NVIDIA CUDA 或 CPU,然後將訓練完成的模型自動匯出為 GGUF 格式。所有付費授權版本皆附贈此功能。
閱讀文章 →經過數月的開發,Voice Pro v1.0今日正式發布,適用於 Windows 與 Linux 系統。它支援30種轉錄語言以及22種中文方言,具備完全離線轉錄功能、隨處使用的快捷鍵輸入方式,且為一次性購買,無需訂閱。以下是納入此初版的功能,以及我們接下來要努力的方向。
閱讀文章 →Champions Program今日開放,持續至5月16日。每種受支援的語言可免費獲得50個個人許可證,總計1,800個;此外,未進入前50名的參賽者可享受70%的折扣。以下為其運作方式以及我們採取此方式的理由。
閱讀文章 →我們參考了撰稿人、顧問及翻譯人員的早期反饋,他們認為舊版的「僅限個人使用」說明令人困惑。現在價格為49美元的個人許可證已明確涵蓋個人及自由職業者的商業用途;而企業許可證(每個席位149美元)則適用於團隊。以下是所做的改動及其原因。
閱讀文章 →Brethof Voice Pro 現在能以 30 種語言以及 22 種中文方言進行文字轉錄與呈現,這些語言包括:阿拉伯語、廣東語、漢語、捷克語、丹麥語、荷蘭語、英語、菲律賓語、芬蘭語、法語、德語、希臘語、印地語、匈牙利語、印尼語、義大利語、日語、韓語、馬其頓語、馬來語、波斯語、波蘭語、葡萄牙語、羅馬尼亞語、俄語、西班牙語、瑞典語、泰語、土耳其語、越南語。以下說明該應用如何選擇適當的翻譯方式,以及「完整翻譯」的真正含義。
閱讀文章 →Brethof Voice Pro 的 ASR 後端是運行在 llama.cpp 上,並使用經 GGUF 數值量化處理的 Qwen 模型,而非 ONNX Runtime。其優點在於安裝檔體更小(83 MB 的 exe 檔,相比之下其他版本超過 400 MB)、冷啟動速度更快,且不必再在每個平台上處理 CUDA/DirectML 相關的問題。以下就是這次轉換背後的工程故事。
閱讀文章 →所有主流的聽寫產品都會將您的語音傳送到他人的伺服器上。我們認為這是錯誤的預設做法。您的語音是您所產生的最個人化的資料——無論是醫療記錄、法律文件、私人日記還是工作機密。正因如此,Voice Pro 才沒有雲端模式、沒有「可選的遠端監控功能」,也無需帳戶即可進行轉錄。
閱讀文章 →能學習用戶聲音的本地語音轉文字功能,享有永久授權,為我們的旗艦產品。
付費 · 旗艦版
Claude Code 的本地長期記憶體——包含全文、向量與圖形資料,基於 SurrealDB。MIT 授權。
免費 · 開源
可直接列印的數位模型,包含 STL/3MF/OBJ 格式。終身存取。
已付費 · 數位目錄
我們的印刷設計已運送至歐洲各地。請購買實體商品,而非檔案。
已付費 · 實體物件
Cyber-tiger AI 主機。以用戶隱私為優先的 AI 解釋,沒有企業的干預。
頻道 · 直播
精心整理的 GitHub 清單,涵蓋 AI、MCP、本地 AI、用於 AI 的 Linux 等主題。注重實用性,而非空談。
免費 · 精選內容
針對 Linux、Windows、macOS 的本地 AI 詳細操作指南。提供真實的配置參數,而非宣傳內容。
免費 · 即將推出
經過實際生產環境測試的 ComfyUI 結構——LTX 分塊迴圈、Nova 流水線等。
免費 · 工作流程落地頁面
負面篩選:浪費您時間的做法與工具排名。需附證據。
免費 · 即將推出
我們是誰、為何要打造以本地為優先的 AI,以及我們不會做的事。