Tính năng — Brethof Voice Pro

🔒

Bảo mật tuyệt đối

Mọi từ ngữ bạn nói đều được xử lý trên thiết bị của bạn. Không có âm thanh, văn bản hay dữ liệu siêu dữ liệu nào được gửi đến bất kỳ máy chủ nào. Không có hệ thống backend trên nền tảng đám mây, không có việc thu thập dữ liệu từ xa, không có phân tích dữ liệu, và cũng không có chức năng gửi thông tin về nhà máy sản xuất.

Không có cuộc gọi mạng nào được thực hiện trong quá trình chuyển đổi giọng nói.
Các mô hình được lưu trữ tại chỗ sau khi tải về một lần
Trình xử lý ngôn ngữ mở Qwen3-ASR — có thể được kiểm toán hoàn toàn

⚡

Tăng tốc bằng GPU

Brethof Voice Pro sử dụng động cơ được tối ưu hóa cho định dạng GGUF cùng llama.cpp để mang lại tốc độ xử lý vô cùng nhanh. Sản phẩm hỗ trợ ngay lập tức tất cả ba nhà sản xuất GPU lớn.

NVIDIA — Tốc độ xử lý nhờ Vulkan (dòng GTX 10 và các dòng mới hơn)
AMD — Tốc độ xử lý nhờ Vulkan (dòng RX 500 và các dòng mới hơn)
Intel — Tốc độ xử lý nhờ Vulkan (GPU Arc và card đồ họa tích hợp)
Chế độ dự phòng bằng CPU — có thể chạy mà không cần GPU, chỉ là tốc độ chậm hơn mà thôi

🌐

Chuyển đổi văn bản ngoại tuyến — 30 ngôn ngữ + 22 phương ngữ tiếng Trung

Được vận hành bởi Qwen3-ASR thông qua llama.cpp. Hãy chọn ngôn ngữ cụ thể để đạt độ chính xác tối ưu, hoặc để công cụ tự nhận diện ngôn ngữ. Mọi từ ngữ đều được lưu trên máy của bạn.

Tiếng AnhTiếng TrungTiếng Quảng ĐôngTiếng Ả Rập Tiếng ĐứcTiếng PhápTiếng Tây Ban NhaTiếng Bồ Đào Nha Tiếng ÝTiếng Hà LanTiếng NgaTiếng Indonesia Hàn QuốcTháiTiếng ViệtTiếng Nhật Thổ Nhĩ KỳKhông có.Mã LaiThụy Điển Đan MạchTiếng Phần LanChỉnh sửaSéc Người PhilippinesTiếng Ba TưTiếng Hy LạpRomânia HungaryMacedonia

Cùng với 22 phương ngữ địa phương tiếng Trung (Anhui, Đông Bắc, Phúc Kiến, Hà Nam, Hồ Nam, Sơn Đông, Tứ Xuyên, Ngô, Mân Nam, v.v.) sẽ được nhận diện tự động khi ngôn ngữ được thiết lập thành tiếng Trung hoặc chế độ nhận diện tự động.

💬

Dịch ngoại tuyến — 38 ngôn ngữ Các tính năng mới trong phiên bản 2.0.0

Dịch bất kỳ đoạn ghi âm, nội dung được nhập từ bàn phím giọng nói, văn bản thông thường, hay tệp phụ đề — toàn bộ đều được thực hiện trên máy của bạn. Được vận hành bởi Tencent Hunyuan MT2Trong FLORES-200 (XCOMET-XXL), cấp độ chất lượng đạt mức 97,9% của Google Gemini 3.1 Pro Phiên bản Fast gọn nhẹ đạt 89,9%, và nó vượt trội hơn Gemini 3.1 Pro trong các bài kiểm tra thực tế (WildMTBench) cũng như việc dịch các ngôn ngữ thiểu số.

Tiếng TrungTiếng AnhTiếng PhápTiếng Bồ Đào Nha Tiếng Tây Ban NhaTiếng NhậtThổ Nhĩ KỳTiếng Nga Tiếng Ả RậpHàn QuốcTháiTiếng Ý Tiếng ĐứcTiếng ViệtMã LaiTiếng Indonesia Người PhilippinesKhông có.Bản dịch tiếng TrungChỉnh sửa SécTiếng Hà LanKhmerMiến Điện Tiếng Ba TưTiếng GujaratUrduTiếng Telugu MarathiTiếng HebrewTiếng BengalTamil UkrainaTiếng Quảng ĐôngTây TạngKazakh Mông CổUyghur

Ghi âm và dịch — Chọn ngôn ngữ đích trong hộp thoại Transcribe; Qwen3-ASR dùng để chuyển đổi giọng nói thành văn bản, Hunyuan MT2 dùng để dịch, cả hai kết quả sẽ được hiển thị song song.
Dịch bàn phím giọng nói — Nói chuyện, chọn mục tiêu từ bảng ngôn ngữ gồm 3 cột, bàn phím sẽ gõ ra bản dịch
Bộ dịch phụ đề — Các tệp SRT/VTT bằng 38 ngôn ngữ khác nhau, kèm chế độ song ngữ tùy chọn (nguồn + bản dịch cho mỗi phần ghi âm)
Hai cấp độ mô hình — Tốc độ nhanh (khoảng 1 GB), xử lý trong vòng vài phần giây trên CPU hoặc GPU; Chất lượng cao (khoảng 4,3 GB), xử lý trong vòng vài phần giây trên GPU
Công cụ chọn thiết bị độc lập — chạy công cụ ASR trên Vulkan 0, dịch thuật trên Vulkan 1, hoặc cả hai trên CPU

📈

Hai kích thước mô hình

Hãy chọn mức cân bằng giữa độ chính xác, tốc độ và lượng VRAM phù hợp với máy của bạn. Cả hai đều sử dụng cùng kiến trúc Qwen3-ASR; bạn có thể thay đổi chúng bất cứ lúc nào thông qua mục Settings → Models.

0.6 tỷ — Kích thước nhỏ, tốc độ cao, hoạt động trên các GPU tích hợp hoặc bất kỳ card đồ họa Vulkan nào có dung lượng trên 4 GB. Là lựa chọn mặc định được khuyến nghị cho máy tính xách tay.
1,7 tỷ — Chất lượng âm thanh tốt hơn, độ chính xác cao hơn với các tập tin âm thanh có dấu nhấn ngữ điệu hoặc nhiễu. Hoạt động ổn định trên VRAM 6 GB+. Là công nghệ ASR tiên tiến nhất trong số các giải pháp mở.

Có thể tải các phần mở rộng tùy chọn theo yêu cầu từ Mục Cài đặt → Các mô hình: Công cụ căn chỉnh cưỡng bức (~540 MB) dành cho thời điểm ghi nhận ở cấp độ từ. Hunyuan MT2 Fast (~1 GB) hoặc Chất lượng (Khoảng 4,3 GB) dành cho việc dịch.

🎵

Giảm nhiễu AI

Tính năng ức chế nhiễu DeepFilter có thể được sử dụng cho các bản ghi âm được thực hiện trong môi trường ồn ào – mặc định là tắt, có thể kích hoạt từ menu xuất hiện khi chọn tùy chọn nhiễu. Việc bỏ qua tính năng này đối với các đoạn ghi âm sạch thực ra lại giúp cải thiện chất lượng (vì DeepFilter có thể xử lý quá mức các đoạn âm thanh ngắn và sạch).

Loại bỏ tiếng ồn nền, tiếng nhấn phím, và tiếng vang trong phòng
Khả năng điều chỉnh mức suy giảm tín hiệu
Không cần phần cứng bổ sung nào.
Tắt theo mặc định — chuyển đổi giữa tùy chọn bật mỗi lần ghi hoặc luôn bật

🎓

Luyện tập giọng nói cá nhân

Hãy điều chỉnh mô hình bằng giọng nói của riêng bạn thông qua công cụ LoRA — quá trình xử lý diễn ra hoàn toàn trên máy của bạn. Mỗi lần bạn sửa một từ bị nhận diện sai, cặp dữ liệu {clip, correction} sẽ được lưu vào tập dữ liệu huấn luyện cục bộ của bạn. Tab huấn luyện trong cửa sổ chính hiển thị ngay tổng số mẫu và thời gian ghi lại — hãy nhấp vào đó để mở trình duyệt tập dữ liệu, sau đó chọn “Bắt đầu huấn luyện” trong tab Huấn luyện.

Thích nghi với giọng nói, phương ngữ và nhịp điệu nói của bạn
Các sửa đổi sẽ được lưu tự động — hãy tiếp tục sử dụng ứng dụng.
Tinh chỉnh LoRA — nhanh chóng, hiệu quả, không cần huấn luyện lại toàn bộ
Chọn tự động NVIDIA CUDA (cu128 PyTorch) hoặc CPU phần mềm nền
Sau khi hoàn tất, sẽ tự động xuất mô hình đã được huấn luyện thành định dạng GGUF.
Dữ liệu giọng nói của bạn sẽ không bao giờ rời khỏi máy tính của bạn.
Miễn phí cho mọi giấy phép trả phí

⌨️

Bàn phím giọng nói & Chèn văn bản trực tiếp

Giữ phím tắt, nói lên nội dung, và văn bản sẽ xuất hiện ở vị trí con trỏ đang ở — giống như trên bàn phím. Có thể sử dụng được trên các trình duyệt, môi trường lập trình, terminal, ứng dụng chat, bất cứ nơi nào có trường nhập văn bản chấp nhận đầu vào từ bàn phím.

Phím tắt mặc định F9 — có thể cấu hình, ghi âm khi giữ nút hoặc chuyển đổi chế độ
Tùy chọn kích hoạt bằng nút chuột phải để ghi âm không cần dùng tay
Chip dịch thuật trực tiếp — Nói bằng một ngôn ngữ, bàn phím sẽ tự động gõ ra bản dịch. Chọn một hoặc nhiều mục tiêu từ bảng 3 cột: một mục mỗi dòng, được hiển thị ngay trong văn bản.EN: … || PL: …), hoặc chỉ mục tiêu đầu tiên.
Hoạt động được với bất kỳ trường văn bản, trình soạn thảo, terminal hay chat nào
X11 và Wayland trên Linux, nhập liệu bản địa trên Windows

📚

Bối cảnh và thuật ngữ từ khóa nóng

Một thiết bị, hai công dụng. Tạo độ lệch cho ASR Đối với các danh từ riêng, tên thương hiệu và thuật ngữ chuyên môn — giúp tránh việc “VFIO” bị dịch sai thành “VEAF1”. Cùng một trường này cũng đóng vai trò là Từ điển thuật ngữ dịch thuật — Gắn nhãn “Brethof Voice” để nó vẫn giữ nguyên tên “Brethof Voice” trong mọi ngôn ngữ đích.

Thêm các thuật ngữ trong Phần thiết lập — một thuật ngữ mỗi dòng
Cải thiện khả năng nhận diện tên riêng và viết tắt.
Giữ nguyên tên thương hiệu và các thuật ngữ kỹ thuật trong bản dịch.
Không cần huấn luyện lại — được áp dụng ngay khi thực hiện việc suy luận.

🤖

MCP Server dành cho các agent AI Gói trả phí

Cùng một tệp nhị phân dùng để chạy giao diện người dùng cũng có thể hoạt động như một máy chủ Protocol Model Context — 19 công cụ hỗ trợ chức năng ASR và MT cho Claude Desktop, Claude Code, Cursor, Cline, hoặc bất kỳ agent tương thích với MCP nào. Phương thức truyền dữ liệu sử dụng stdio: không cần cổng, không cần tường lửa, cũng không cần kết nối với localhost. Agent chịu trách nhiệm quản lý toàn bộ vòng đời của ứng dụng.

Chuyển đổi văn bản từ các tập tin âm thanh/video, bản ghi qua micrô, hoặc âm thanh hệ thống
Dịch văn bản, SRT, hoặc VTT (hỗ trợ chế độ song ngữ)
Chuyển đổi thiết bị xử lý ASR hoặc MT một cách nhanh chóng
Danh sách và chuyển đổi giữa các thiết lập giọng nói cá nhân
Đọc/ghi bất kỳ thiết lập ứng dụng nào từ agent

Chạy brethof-voice --mcp Và agent sẽ kết nối thông qua stdio. Cần có giấy phép trả phí — người dùng thử nghiệm không thể khởi động máy chủ.

Mọi thứ trong Một ứng dụng duy nhất

Bảo mật tuyệt đối

Tăng tốc bằng GPU

Chuyển đổi văn bản ngoại tuyến — 30 ngôn ngữ + 22 phương ngữ tiếng Trung

Dịch ngoại tuyến — 38 ngôn ngữ Các tính năng mới trong phiên bản 2.0.0

Hai kích thước mô hình

Giảm nhiễu AI

Luyện tập giọng nói cá nhân

Bàn phím giọng nói & Chèn văn bản trực tiếp

Bối cảnh và thuật ngữ từ khóa nóng

MCP Server dành cho các agent AI Gói trả phí

Sẵn sàng thử chưa?

Mọi thứ chúng tôi tạo ra

Brethof Voice Pro

Brethof Mind

Mô hình 3D

In 3D

Nova

Các danh sách tuyệt vời

Hướng dẫn

Các quy trình làm việc của ComfyUI

Danh sách xếp hạng các công cụ chống vi phạm bản quyền

Về Brethof AI