คุณสมบัติ — Brethof Voice Pro

🔒

ความเป็นส่วนตัวสูงสุด

ทุกคำที่คุณพูดจะได้รับการประมวลผลบนอุปกรณ์ของคุณเอง ไม่มีการส่งข้อมูลเสียง ข้อความ หรือข้อมูลเมตาใดๆ ไปยังเซิร์ฟเวอร์ใดๆ เลย ไม่มีบริการแบ็กเอนด์บนคลาวด์ ไม่มีการส่งข้อมูลเพื่อติดตามสถานะ ไม่มีการวิเคราะห์ข้อมูล และไม่มีการส่งข้อมูลกลับไปยังศูนย์กลางด้วย

ไม่มีการเรียกใช้เครือข่ายระหว่างการแปลงเสียงเป็นข้อความ
โมเดลที่ถูกเก็บไว้ในเครื่องหลังจากดาวน์โหลดครั้งแรก
เครื่องยนต์ Qwen3-ASR แบบโอเพนซอร์ส — สามารถตรวจสอบได้อย่างเต็มที่

⚡

การเร่งความเร็วด้วย GPU

Brethof Voice Pro ใช้เครื่องยนต์ที่ได้รับการปรับแต่งสำหรับรูปแบบ GGUF ร่วมกับ llama.cpp เพื่อให้การประมวลผลทำได้อย่างรวดเร็ว โดยรองรับผลิตภัณฑ์ GPU ชั้นนำทั้งสามยี่ห้อได้ทันทีโดยไม่ต้องตั้งค่าเพิ่มเติม

NVIDIA — การเร่งประสิทธิภาพด้วย Vulkan (GTX 10-series และรุ่นใหม่กว่า)
AMD — การเร่งประสิทธิภาพด้วย Vulkan (RX 500-series และรุ่นใหม่กว่า)
Intel — การเร่งประสิทธิภาพด้วย Vulkan (GPU แบบ Arc และกราฟิกแบบรวมอยู่ในเครื่อง)
โหมดสำรองของ CPU — สามารถทำงานได้โดยไม่ต้องใช้ GPU แต่จะช้ากว่า

🌐

การถอดเสียงแบบออฟไลน์ — 30 ภาษา + 22 ภาษาถิ่นจีน

ใช้เทคโนโลยี Qwen3-ASR ผ่าน llama.cpp เพื่อแปลข้อความ คุณสามารถกำหนดภาษาที่ต้องการใช้เพื่อให้ได้ความแม่นยำสูงสุด หรือปล่อยให้เครื่องมือตรวจจับภาษาโดยอัตโนมัติก็ได้ ข้อความทั้งหมดจะยังคงอยู่ในเครื่องของคุณเอง

ภาษาอังกฤษภาษาจีนภาษากวางตุ้งภาษาอาหรับ ภาษาเยอรมันภาษาฝรั่งเศสภาษาสเปนภาษาโปรตุเกส ภาษาอิตาลีภาษาดัตช์รัสเซียภาษาอินโดนีเซีย ภาษาเกาหลีไทยภาษาเวียดนามภาษาญี่ปุ่น ภาษาตุรกีไม่มีข้อมูลที่ต้องแปลมาเลย์ภาษาสวีเดน เดนมาร์กภาษาฟินแลนด์การปรับแต่งเช็ก ภาษาฟิลิปปินส์ภาษาเปอร์เซียกรีกโรมาเนียน ภาษาฮังการีมาซิโดเนีย

นอกจากนี้ยังรองรับภาษาถิ่นจีน 22 ภาษา (เช่น อานฮุย, ตงเป่ย, ฝูเจี้ยน, เหอหนาน, หูหนาน, ซานตง, สี่ฉวน, วู, มินหนาน และอื่นๆ) โดยจะถูกระบุโดยอัตโนมัติเมื่อตั้งภาษาเป็นภาษาจีนหรือใช้โหมดตรวจจับภาษาอัตโนมัติ

💬

การแปลแบบออฟไลน์ — 38 ภาษา ความใหม่ในเวอร์ชัน 2.0.0

สามารถแปลไฟล์การถอดเสียง ผลลัพธ์จากคีย์บอร์ดเสียง ข้อความธรรมดา หรือไฟล์คำบรรยายได้ทั้งหมด — โดยทำการแปลบนเครื่องของคุณเอง ใช้เทคโนโลยีจาก Tencent Hunyuan MT2: ใน FLORES-200 (XCOMET-XXL) ระดับคุณภาพจะอยู่ที่ 97.9% ของ Google Gemini 3.1 Pro นอกจากนี้ยังมีรุ่น Fast ขนาดกะทัดรัดที่มีประสิทธิภาพ 89.9% ซึ่งสามารถเอาชนะ Gemini 3.1 Pro ได้ในการแปลในสถานการณ์จริง (WildMTBench) และการแปลภาษาที่มีผู้พูดน้อย

ภาษาจีนภาษาอังกฤษภาษาฝรั่งเศสภาษาโปรตุเกส ภาษาสเปนภาษาญี่ปุ่นภาษาตุรกีรัสเซีย ภาษาอาหรับภาษาเกาหลีไทยภาษาอิตาลี ภาษาเยอรมันภาษาเวียดนามมาเลย์ภาษาอินโดนีเซีย ภาษาฟิลิปปินส์ไม่มีข้อมูลที่ต้องแปลภาษาจีนแปลการปรับแต่ง เช็กภาษาดัตช์เขมรเมียนมา ภาษาเปอร์เซียภาษากุจราติอูรดูภาษาเตลูกู มาราธีภาษาฮีบรูภาษาเบงกาลีทมิฬ ยูเครนภาษากวางตุ้งภาษาทิเบตคาซัคสถาน ภาษามองโกเลียอุยกูร์

ถอดเสียง + แปลภาษา — เลือกภาษาเป้าหมายในหน้าต่าง Transcribe โดย ASR จะทำหน้าที่ถอดเสียง ส่วน MT จะทำหน้าที่แปล ทั้งสองจะแสดงผลคู่กัน
การแปลคีย์บอร์ดเสียง — พูด แล้วเลือกเป้าหมายจากตารางภาษา 3 คอลัมน์ โดยคีย์บอร์ดจะทำหน้าที่พิมพ์ผลแปลออกมา
โปรแกรมแปลคำบรรยาย — ไฟล์ SRT/VTT ใน 38 ภาษาใดก็ได้ พร้อมโหมดสองภาษาเลือกใช้ได้ (ภาษาต้นฉบับ + ภาษาแปลต่อคำบรรยายแต่ละชุด)
ระดับโมเดลสองระดับ — ความเร็วสูง (~1 GB) ใช้เวลาน้อยกว่าหนึ่งวินาทีบน CPU หรือ GPU; คุณภาพดี (~4.3 GB) ใช้เวลาน้อยกว่าหนึ่งวินาทีบน GPU
เครื่องมือเลือกอุปกรณ์แบบอิสระ — ใช้ Vulkan 0 สำหรับการประมวลผล ASR ใช้ Vulkan 1 สำหรับการแปล หรือใช้ทั้งสองบน CPU

📈

ขนาดโมเดลสองแบบ

เลือกระดับความแม่นยำ ความเร็ว และปริมาณ VRAM ที่เหมาะสมกับเครื่องของคุณ ทั้งสองตัวใช้อาร์คิเทคเจอร์ Qwen3-ASR เดียวกัน สามารถเปลี่ยนได้ตลอดเวลาผ่านหน้า Settings → Models

0.6 พันล้าน — มีขนาดเล็ก ทำงานได้รวดเร็ว สามารถใช้งานกับ GPU แบบรวมอยู่ในเครื่องหรือการ์ดที่รองรับ Vulkan ขนาด 4 GB ขึ้นไปก็ได้ เป็นตัวเลือกเริ่มต้นที่แนะนำสำหรับโน้ตบุ๊ก
1.7 พันล้าน — มีความสามารถในการประมวลผลที่ดีขึ้นและมีความแม่นยำสูงขึ้นกับไฟล์เสียงที่มีสัทอักษรพิเศษหรือมีเสียงรบกวน สามารถทำงานได้อย่างราบรื่นบน VRAM 6 GB ขึ้นไป ถือเป็นเทคโนโลยี ASR แบบโอเพนซอร์สที่ทันสมัยที่สุดในปั

สามารถดาวน์โหลดส่วนเสริมตามความต้องการได้จาก Settings → Models: เครื่องมือจัดเรียงแบบบังคับ (ประมาณ 540 MB) สำหรับเวลาที่ระบุในระดับคำ Hunyuan MT2 Fast (ประมาณ 1 GB) หรือ คุณภาพ (ประมาณ 4.3 GB) สำหรับการแปล。

🎵

การลดเสียงรบกวนด้วย AI

ฟีเจอร์ DeepFilter สำหรับลดเสียงรบกวนแบบไม่บังคับ สำหรับการบันทึกในห้องที่มีเสียงรบกวน — ปิดอยู่โดยค่าเริ่มต้น สามารถเปิดได้จากหน้าต่างป๊อปอัป Noise การไม่ใช้ฟีเจอร์นี้กับไฟล์เสียงที่มีคุณภาพดีจริงๆ จะช่วยให้คุณภาพดียิ่งขึ้น (DeepFilter อาจประมวลผลเสียงที่สั้นและบริสุท�

กำจัดเสียงรบกวนในพื้นหลัง เสียงคลิกแป้นพิมพ์ และเสียงก้องในห้อง
การปรับแต่งค่าการลดทอนสัญญาณ
ไม่จำเป็นต้องมีฮาร์ดแวร์เพิ่มเติม
ปิดโดยค่าเริ่มต้น — เปลี่ยนเป็นเปิดใช้งานตามการบันทึกแต่ละครั้งหรือเปิดตลอดเวลา

🎓

การฝึกพูดส่วนบุคคล

ปรับแต่งโมเดลให้เข้ากับเสียงของคุณเองด้วย LoRA — สามารถทำงานแบบ end-to-end บนเครื่องของคุณได้เลย ทุกครั้งที่คุณแก้ไขคำที่ระบบจดจำผิด เซตข้อมูล {clip, correction} นั้นจะถูกบันทึกเข้าไปในชุดข้อมูลฝึกอบรมส่วนตัวของคุณ แผงการฝึกอบรมในหน้าต่างหลักจะแสดงจำนวนตัวอย่างทั้งหมดและเวลาที่บันทึกไว้อย่างชัดเจน — คลิกที่นั่นเพื่อเปิดเครื่องมือดูชุดข้อมูล จากนั้นคลิก “Start training” ในแท็บ Training

ปรับให้เข้ากับสำเนียง ภาษาถิ่น และจังหวะการพูดของคุณ
การแก้ไขจะถูกบันทึกโดยอัตโนมัติ — เพียงแค่ใช้แอปต่อไปเรื่อยๆ ก็ได้
การปรับแต่ง LoRA — รวดเร็ว มีประสิทธิภาพ โดยไม่จำเป็นต้องฝึกใหม่ทั้งหมด
เลือกอัตโนมัติ NVIDIA CUDA (cu128 PyTorch) หรือ CPU ส่วนหลังของระบบ
จะส่งออกโมเดลที่ฝึกเสร็จแล้วเป็นรูปแบบ GGUF โดยอัตโนมัติเมื่อเสร็จสิ้น
ข้อมูลเสียงของคุณจะไม่มีวันออกไปนอกเครื่องของคุณเลย
ใช้งานได้ฟรีสำหรับใบอนุญาตที่เสียค่าใช้จ่ายทุกใบ

⌨️

คีย์บอร์ดเสียงและการฝังข้อความโดยตรง

กดคีย์ลัดไว้ พูดออกมา แล้วข้อความจะปรากฏตรงที่เคอร์เซอร์อยู่ — เหมือนกับการใช้คีย์บอร์ด สามารถใช้งานได้ในเว็บเบราว์เซอร์ โปรแกรมพัฒนาซอฟต์แวร์ ไทล์เอ็น แอปพลิเคชันแชท และทุกที่ที่ฟิลด์ข้อความรับอินพุตจากคีย์บอร์ดได้

คีย์ลัดเริ่มต้น F9 — สามารถตั้งค่าได้ โหมดกดค้างเพื่อบันทึก หรือโหมดเปิด/ปิด
สามารถใช้ปุ่มขวาของเมาส์เพื่อเริ่มบันทึกแบบไม่ต้องจับอุปกรณ์ได้
ชิปแปลแบบสด — พูดเป็นภาษาหนึ่งภาษา แล้วคีย์บอร์ดจะทำการแปล ให้เลือกภาษาปลายทางหนึ่งภาษาหรือมากกว่าจากรูปแบบตาราง 3 คอลัมน์: หนึ่งภาษาต่อหนึ่งบรรทัด ในรูปแบบแนวเดียวกันEN: … || PL: …), หรือเลือกเป้าหมายเพียงตัวแรกเท่านั้น。
สามารถใช้งานได้กับฟิลด์ข้อความ โปรแกรมแก้ไข ตัวจัดการบรรทัดคำสั่ง หรือช่องแชทใดๆ ก็ได้
X11 และ Wayland บน Linux, การรับอินพุตแบบดั้งเดิมบน Windows

📚

บริบทและศัพท์เฉพาะของคำสำคัญ

ที่ดินผืนเดียว ใช้ได้สองอย่าง สร้างความลำเอียง ASR สำหรับคำนามเฉพาะ ชื่อแบรนด์ และศัพท์เฉพาะ — ช่วยลดโอกาสที่ “VFIO” จะถูกแปลผิดเป็น “VEAF1” ส่วนฟิลด์เดียวกันนี้ยังใช้งานได้หลายอย่างอีกด้วย พจนานุกรมศัพท์เฉพาะด้านการแปล — ติดป้าย “Brethof Voice” เพื่อให้ยังคงเป็น “Brethof Voice” ในทุกภาษาเป้าหมาย

เพิ่มคำศัพท์ในการตั้งค่า — หนึ่งคำต่อบรรทัด
ช่วยเพิ่มประสิทธิภาพในการรู้จำคำนามเฉพาะและอักษรย่อ
รักษาชื่อแบรนด์และคำศัพท์ทางเทคนิคไว้ในการแปล
ไม่จำเป็นต้องฝึกโมเดลใหม่ — สามารถนำไปใช้งานได้ทันทีขณะประมวลผล

🤖

MCP Server สำหรับ AI Agents แผนการชำระเงิน

ไฟล์ไบนารีเดียวกันที่ใช้รันอินเตอร์เฟซผู้ใช้สามารถใช้งานเป็นเซิร์ฟเวอร์ Model Context Protocol ได้เช่นกัน — โดยมีเครื่องมือ 19 ตัวที่ช่วยให้สามารถใช้งานฟีเจอร์ ASR และ MT ได้กับ Claude Desktop, Claude Code, Cursor, Cline หรือเอเจนต์ใดๆ ที่รองรับ MCP การส่งข้อมูลทำผ่าน stdio: ไม่มีการกำหนดพอร์ต ไม่มีไฟร์วอลล์ และไม่มีการเชื่อมต่อกับ localhost เอเจนต์เป็นผู้ควบคุมวงจรชีวิตของโปรแกรมเอง

ถอดเสียงจากไฟล์ออดิโอ/วิดีโอ การบันทึกด้วยไมโครโฟน หรือเสียงของระบบ
แปลข้อความ SRT หรือ VTT (รองรับโหมดสองภาษา)
เปลี่ยนอุปกรณ์ประมวลผล ASR หรือ MT ได้ทันที
แสดงรายการและสลับโปรไฟล์เสียงส่วนตัว
อ่าน/เขียนการตั้งค่าแอปใดๆ จากเอเจนต์ได้

รัน brethof-voice --mcp และเอเจนต์จะเชื่อมต่อผ่าน stdio จำเป็นต้องมีใบอนุญาตแบบเสียค่าใช้จ่าย — ผู้ใช้ทดลองไม่สามารถเริ่มต้นเซิร์ฟเวอร์ได้

ทุกสิ่งภายใน แอปเดียว

ความเป็นส่วนตัวสูงสุด

การเร่งความเร็วด้วย GPU

การถอดเสียงแบบออฟไลน์ — 30 ภาษา + 22 ภาษาถิ่นจีน

การแปลแบบออฟไลน์ — 38 ภาษา ความใหม่ในเวอร์ชัน 2.0.0

ขนาดโมเดลสองแบบ

การลดเสียงรบกวนด้วย AI

การฝึกพูดส่วนบุคคล

คีย์บอร์ดเสียงและการฝังข้อความโดยตรง

บริบทและศัพท์เฉพาะของคำสำคัญ

MCP Server สำหรับ AI Agents แผนการชำระเงิน

พร้อมจะลองใช้แล้วหรือยัง?

ทุกสิ่งที่เราสร้างขึ้นมา

Brethof Voice Pro

Brethof-Mind

แบบจำลอง 3D

การพิมพ์สามมิติ

โนวา

รายการที่ยอดเยี่ยม

คู่มือ

เวิร์กโฟลว์ของ ComfyUI

รายการระดับ Anti-dev

เกี่ยวกับ Brethof AI