新版 · v2.0.0

其中的一切 一个应用

转录 30种语言 + 22种中文方言

翻译 38种语言,完全离线使用

时间戳 自行制作字幕

MCP服务器 通过你的AI技术栈与它进行对话

可在本地运行——甚至在笔记本电脑上也能使用无需订阅14天免费试用

Brethof Voice Pro — Main Screen
Brethof Voice Pro — Recording
🔒

完全隐私保护

您说出的每一个字都会在您的设备上进行处理。没有任何音频、文本或元数据会被传输到任何服务器。没有云后端,没有遥测功能,没有分析功能,也不会有数据回传。

  • 转录过程中无任何网络调用
  • 一次性下载后存储在本地模型
  • 开源的Qwen3-ASR引擎——完全可审计

GPU加速

Brethof Voice Pro采用经过GGUF优化的引擎以及llama.cpp,可实现极快的推理速度。它可直接支持三大主流GPU厂商的硬件。

  • NVIDIA — Vulkan加速(GTX 10系列及更高版本)
  • AMD — Vulkan加速(RX 500系列及更新款)
  • 英特尔 — Vulkan加速(Arc GPU及集成显卡)
  • CPU备用方案 — 无需GPU即可运行,只是速度较慢
🌐

离线转录——30种语言+22种中文方言

由 llama.cpp 驱动,结合 Qwen3-ASR 实现翻译功能。可选择锁定特定语言以获得最高准确度,也可让引擎自动检测。所有文本处理均在您的设备上完成。

英语中文粤语阿拉伯语 德语法语西班牙语葡萄牙语 意大利语荷兰语俄语印度尼西亚语 韩语泰语越南语日语 土耳其语不会马来语瑞典语 丹麦语芬兰语波兰语捷克语 菲律宾语波斯语希腊语罗马尼亚语 匈牙利语马其顿语

此外,当语言设置为中文或自动检测时,还会自动识别22种中文方言(安徽话、东北话、福建话、河南话、湖南话、山东话、四川话、吴语、闽南语等)。

💬

离线翻译——38种语言 v2.0.0版本的新功能

可对任何转录内容、语音键盘输出、纯文本或字幕文件进行翻译——全部在您的设备上完成。由……提供支持 腾讯Hunyuan MT2在FLORES-200(XCOMET-XXL)中,质量等级可达到 97.9%的Google Gemini 3.1 Pro 其紧凑型Fast版本的准确率为89.9%,在真实场景测试(WildMTBench)以及小语种翻译方面均优于Gemini 3.1 Pro。

中文英语法语葡萄牙语 西班牙语日语土耳其语俄语 阿拉伯语韩语泰语意大利语 德语越南语马来语印度尼西亚语 菲律宾语不会中文翻译波兰语 捷克语荷兰语高棉语缅甸语 波斯语古吉拉特语乌尔都语泰卢固语 马拉地语希伯来语孟加拉语泰米尔语 乌克兰语粤语藏语哈萨克语 蒙古语维吾尔语
  • 转录 + 翻译 — 在“转录”弹窗中选择目标语言;ASR负责语音转录,MT负责文本翻译,两者结果会并排显示。
  • 语音键盘翻译 — 说话后从三列语言网格中选择目标语言,键盘会输入对应的翻译内容
  • 字幕翻译工具 — 支持38种语言的SRT/VTT文件,可选双语模式(每个时间码显示原文及译文)
  • 两种模型层级 — 在CPU上处理快速版本(约1GB)可在秒级完成;在GPU上处理高质量版本(约4.3GB)也可在秒级完成
  • 独立设备选择器 — 在Vulkan 0上运行ASR,在Vulkan 1上运行翻译,或同时在CPU上运行两者。
📈

两种模型尺寸

根据您的机器性能,选择适合的准确度、速度和显存平衡方案。这两种版本都采用相同的Qwen3-ASR架构;您可以通过“设置”→“模型”随时进行切换。

  • 0.6B — 体积小、运行速度快,可在集成显卡或任何4GB及以上容量的Vulkan显卡上运行。是笔记本电脑的理想默认选择。
  • 17亿 — 对带口音或噪声的音频具有更高的处理精度与更大的处理能力。6GB及以上显存即可流畅运行。在开源ASR技术中处于领先水平。

可通过“设置”→“模型”按需下载可选插件: 强制对齐工具 (约540 MB)用于单词级时间戳。 Hunyuan MT2快速版 (约1GB)或 质量 翻译所需空间约为(4.3 GB)。

🎵

AI降噪功能

针对在嘈杂环境中录制的音频,可选用DeepFilter噪声抑制功能——默认为关闭状态,可通过“噪声”弹出菜单启用。对于干净的环境下录制的音频片段,关闭该功能反而有助于提升音质(DeepFilter可能会过度处理较短且干净的音频)。

  • 可消除背景噪音、键盘点击声以及房间回音。
  • 可配置的衰减功能
  • 无需额外硬件
  • 默认为关闭——可切换为每次录制时开启或始终开启
🎓

个人语音训练

使用LoRA根据您自己的声音对模型进行微调——整个过程在您的设备上端到端完成。每次您纠正被错误识别的单词时,对应的{clip, correction}对都会被保存到您的本地训练数据集中。主窗口中的训练卡片可让您一目了然地查看总样本数及录制时长——点击该卡片即可打开数据集浏览器,然后在“训练”选项卡中选择“开始训练”。

  • 可适应您的口音、方言及说话节奏
  • 修改内容会自动保存——只需继续使用该应用即可。
  • LoRA微调——快速、高效,无需完全重新训练
  • 自动选择 NVIDIA CUDA (cu128 PyTorch)或 CPU 后端
  • 训练完成后会自动将训练好的模型导出为GGUF格式。
  • 您的声音数据绝不会离开您的设备。
  • 每份付费许可证均可免费使用
⌨️

语音键盘与直接文本输入

按住热键并说话,文字就会出现在光标所在的位置——就像使用键盘一样。该功能适用于浏览器、集成开发环境、终端、聊天应用以及任何能够接收键盘输入的文本字段。

  • 默认热键 F9 — 可配置,支持按住录制或切换模式
  • 支持通过右键触发实现免提录音
  • 实时翻译芯片 — 用一种语言说话,键盘会自动输入翻译内容。从三列网格中选择一种或多种目标语言:每行选择一个,以内联形式显示。EN: … || PL: …),或者仅选择第一个目标。
  • 可适用于任何文本框、编辑器、终端或聊天应用。
  • Linux系统中的X11与Wayland,Windows系统中的原生输入方式
📚

热词上下文与术语

一个领域,两种用途。加以偏向处理 ASR技术 针对专有名词、品牌名称及专业术语——可避免“VFIO”被误译为“VEAF1”。同一字段同时用于 翻译术语词典 — 将“Brethof Voice”固定为在所有目标语言中均显示为“Brethof Voice”。

  • 在设置中添加术语——每行一个
  • 提升专有名词和缩写的识别能力
  • 在翻译过程中保留品牌名称及专业术语。
  • 无需重新训练——在推理时即可直接使用。
🤖

用于AI智能体的MCP服务器 付费套餐

用于运行GUI的同一二进制文件也可作为模型上下文协议服务器使用——共有19种工具可通过该服务器为Claude Desktop、Claude Code、Cursor、Cline或任何支持MCP的代理提供ASR和MT功能。数据传输采用标准输入输出方式:无需端口、无需防火墙,也不需要进行本地主机绑定。代理负责掌控整个生命周期。

  • 对音频/视频文件、麦克风录音或系统音频进行转录
  • 可翻译文本、SRT或VTT格式(支持双语模式)
  • 即时切换ASR或MT计算设备
  • 列出并切换个人语音配置文件
  • 从代理程序中读取/写入任何应用设置

运行 brethof-voice --mcp 该代理通过标准输入输出进行连接。需要购买付费许可证——试用用户无法启动服务器。

准备好尝试了吗?

14天免费试用,所有功能均可使用,无需信用卡。

我们打造的一切

外部:   YouTube · GitHub