كشفت Meta AI مؤخرًا عن “اختراق” منشئ تحويل النص إلى كلام (TTS) الذي يزعم أنه ينتج نتائج تصل إلى 20 مرة أسرع من أحدث نماذج الذكاء الاصطناعي ذات الأداء المماثل.
يتجنب النظام الجديد ، المسمى Voicebox ، بنية TTS التقليدية لصالح نموذج أقرب إلى برنامج OpenAI’s ChatGPT أو Google Bard.
https://www.youtube.com/watch؟v=vjqK031bgQQ
من بين الاختلافات الرئيسية بين Voicebox ونماذج TTS المماثلة ، مثل ElevenLabs Prime Voice AI ، هو أن عرض Meta يمكن أن يعمم من خلال التعلم في السياق.
يشبه إلى حد كبير ChatGPT أو نماذج المحولات الأخرى ، يستخدم Voicebox مجموعات بيانات تدريب واسعة النطاق. أدت الجهود السابقة لاستخدام مجموعات ضخمة من البيانات الصوتية إلى تدهور شديد في مخرجات الصوت. لهذا السبب ، تستخدم معظم أنظمة تحويل النص إلى كلام مجموعات بيانات صغيرة ومنسقة للغاية ومُصنفة.
تتغلب Meta على هذا القيد من خلال مخطط تدريب جديد يتخلص من الملصقات والمعالجة لمعمارية قادرة على “ملء” المعلومات الصوتية.
كما ذكرت Meta AI في منشور مدونة بتاريخ 16 يونيو ، فإن Voicebox هو “النموذج الأول الذي يمكنه التعميم على مهام إنشاء الكلام التي لم يتم تدريبها بشكل خاص لإنجازها بأداء متطور.”
هذا يجعل من الممكن لـ Voicebox ترجمة النص إلى كلام ، وإزالة الضوضاء غير المرغوب فيها عن طريق توليف الكلام البديل وحتى تطبيق صوت المتحدث على مخرجات لغة مختلفة.
وفقًا لورقة بحثية مصاحبة نشرتها Meta ، يمكن لنظام Voicebox الذي تم تدريبه مسبقًا تحقيق كل هذا باستخدام نص الإخراج المطلوب ومقطع صوتي مدته ثلاث ثوانٍ فقط.
يأتي وصول توليد الكلام القوي في وقت حساس بشكل خاص ، حيث تواصل شركات وسائل التواصل الاجتماعي صراعها مع الاعتدال ، وفي الولايات المتحدة ، تهدد الانتخابات الرئاسية الوشيكة باختبار حدود اكتشاف المعلومات المضللة عبر الإنترنت مرة أخرى.
على سبيل المثال ، يواجه الرئيس الأمريكي السابق دونالد ترامب حاليًا مزاعم بأنه أساء التعامل مع مواد حكومية سرية بعد تركه منصبه. ومن بين الأدلة المزعومة الواردة في القضية المرفوعة ضده تسجيلات صوتية يُزعم أنه اعترف فيها بارتكاب مخالفات محتملة.
في حين أنه لا يوجد حاليًا ما يشير إلى أن الرئيس السابق يعتزم رفض المحتوى الموصوف في الملفات الصوتية ، فإن قضيته توضح أن سلامة البيانات تكمن في صميم النظام القانوني الأمريكي ، وبالتالي ديمقراطيته.
Voicebox ليست الأداة الأولى من نوعها ، ولكن يبدو أنها من بين أكثر الأدوات قوة. على هذا النحو ، طورت Meta أداة لتحديد ما إذا كان الكلام ناتجًا عن ذلك ، وتزعم الشركة أنها تستطيع “اكتشاف تافهة” الفرق بين الصوت الحقيقي والمزيف. حسب منشور المدونة:
“كما هو الحال مع ابتكارات الذكاء الاصطناعي الجديدة القوية الأخرى ، ندرك أن هذه التكنولوجيا تجلب احتمالية إساءة الاستخدام والضرر غير المقصود. في ورقتنا البحثية ، نوضح بالتفصيل كيف أنشأنا مصنفًا عالي الفعالية يمكنه التمييز بين الكلام الحقيقي والصوت الذي يتم إنشاؤه باستخدام Voicebox للتخفيف من هذه المخاطر المحتملة في المستقبل. “
في عالم العملات المشفرة ، أصبح الذكاء الاصطناعي جزءًا لا يتجزأ من العمليات اليومية لمعظم الشركات مثل الإنترنت أو الكهرباء. تعتمد أكبر التبادلات على روبوتات الدردشة بالذكاء الاصطناعي لتفاعلات العملاء وتحليل المشاعر ، وأصبحت روبوتات التداول شائعة.
متعلق ب: يتم توصيل Bybit بـ ChatGPT لأدوات التداول المدعومة بالذكاء الاصطناعي
إن ظهور أنظمة قوية لتحويل النص إلى كلام مثل Voicebox ، جنبًا إلى جنب مع التداول الآلي ، يمكن أن يساعد في سد فجوة لمتداولي العملات المشفرة المحتملين الذين يعتمدون على أنظمة تحويل النص إلى كلام (TTS) التي قد تواجه حاليًا صعوبات مع مصطلحات التشفير أو الدعم متعدد اللغات.