كل منتج رئيسي للنطق الصوتي — مثل Dragon وOtter وخدمة النطق الصوتي التابعة لجوجل وخدمة النطق الصوتي التابعة لأبل، بالإضافة إلى جميع خدمات الترجمة الصوتية عبر السحابة — يرسل صوتك عبر خوادم شخص آخر. يتم تسجيل الصوت على جهازك، ثم يتم نقله عبر بروتوكول HTTPS إلى مركز بيانات، حيث يتم تحويله إلى نص، وبعد ذلك يعود النص إليك. أحيانًا يتم تخزين الصوت، وأحيانًا يُستخدم لتدريب النماذج، وأحيانًا يتم “إخفاء هوية” المصدر، وهو مصطلح فقد معظم معناه.
نعتقد أن ذلك هو الإعداد الافتراضي الخاطئ.
ما الذي يطلبه الناس فعلاً
بمجرد أن تبدأ في مراقبة الاستخدام الفعلي، فإن محتوى التدوين الصوتي نادرًا ما يكون عفويًا. بل هو كالتالي:
- ملاحظات طبية — طبيب يدوّن محتوى الاستشارة.
- مسودات قانونية — محامٍ يدوّن طلبًا قضائيًا أو رسالة إلى عميل.
- الصحافة — مقابلات مع مصادر محددة افترضوا أن التسجيل لن يغادر جهاز الصحفي.
- ملاحظات العلاج — ملخصات جلسات يكتبها أخصائي نفسي.
- استراتيجية الأعمال — موظف تنفيذي يُعد مذكرات حول الصفقات والأشخاص والأموال.
- اليوميات الشخصية — ما يفكر فيه الناس فعلاً، والذي لا ينبغي لأحد آخر أن يقرأه أبداً.
يتم تحميل كل ذلك بشكل روتيني إلى خدمات السحابة تلقائيًا. وغالبًا ما يكون ذلك انتهاكًا لقوانين HIPAA وGDPR وخصوصية العلاقة بين المحامي وموكله، أو حتى للأخلاق البسيطة — وذلك لأن المستخدم لم يدرك ذلك أو لم يكن لديه بديل.
ما الذي يجعل Brethof Voice Pro مختلفًا؟
- لا يوجد وضع سحابي، نهائيًا. لا يوجد خيار لتفعيل ميزة “إرسال البيانات إلى الخادم لتحسين الدقة”. يعمل النموذج على وحدة المعالجة المركزية أو وحدة معالجة الرسومات الخاصة بك، وهذا هو الخيار الوحيد.
- لا يوجد بيانات تتبع. لا يرسل التطبيق أي بيانات عن استخدامه أو تقارير عن الأعطال أو أي شيء آخر إلى الخادم. المكالمات الشبكية الوحيدة هي: (أ) التحقق من الترخيص عند بدء التشغيل، (ب) التحقق من التحديثات، (ج) تنزيل النماذج يدويًا اختياريًا. تم وثائق كل هذه العمليات ويمكن تعطيلها.
- لا يلزم وجود حساب للقيام بعملية التسجيل الصوتي. يمكنك استخدام النسخة التجريبية المدتها 14 يومًا دون الحاجة إلى إنشاء حساب. لا يُطلب منك تقديم بريد إلكتروني إلا إذا أردت شراء رخصة.
- لا يتم حفظ الملفات الصوتية على القرص أبدًا. يتم تخزين المخزن المؤقت للصوت في ذاكرة الوصول العشوائي أثناء عملية الترجمة الصوتية، ويتم تحريره فور إنتاج النص. لا يوجد شيء يمكن تسريبه، ولا شيء يمكن استعادته عبر التحليل الجنائي.
هل يمكن للنماذج المحلية حقًا مجاراة الخدمات السحابية؟
قبل عامين، لا. لم يكن بإمكان نموذج محلي بحجم 100 ميغابايت على معالج الكمبيوتر المحمول أن يضاهي ما كان يفعله مركز بيانات جوجل باستخدام نموذج بحجم 200 جيجابايت و40 بطاقة رسومات.
اليوم، نعم. يحقق برنامج Qwen3-ASR 3B الذي يعمل على معالجات من الفئة المتوسطة معدلات خطأ في الترجمة تبلغ 2% فقط مقارنة بمزودي الخدمات السحابية الكبرى في معظم اللغات، و إيقاعات لغات ذات موارد محدودة حيث يمتلك مزودو السحابة بيانات تدريب أقل. أما بالنسبة للنطق التفصيلي – العبارات القصيرة المقصودة – فإن الفجوة تقترب من 0%. أصبح نظام التعرف على الكلام المحلي جيدًا بما فيه الكفاية، ويستمر في التحسن. نحن فقط من يختارون توفيره.
المبدأ
صوتك هو أكثر البيانات الشخصية التي تنتجها. فهو يحمل هويتك وأفكارك والأشخاص الذين تتحدث عنهم، بالإضافة إلى الكلمات التي اخترتها دون أن يقوم أحد بتعديلها. لا ينبغي أن يغادر جهازك ما لم ترسله عمدًا وبوعي إلى مكان ما.
ذلك ليس عبارة تسويقية؛ بل هو السبب الكامل وراء وجود المنتج.