نفيديا تنجح في تحويل الصوت الآلي ليكون أكثر تعبيراً وواقعية

12 سبتمبر 2021

20:12 م

A A

طوّر فريق بحث تحويل النص إلى كلام في شركة نفيديا NVIDIA نموذجاً يسمى RAD-TTS لتحسين توليف الصوت الآلي بالذكاء الاصطناعي، ويسمح النظام للمستخدم بتدريب نموذج تحويل النص إلى كلام بصوته الخاص، بما في ذلك السرعة والنغمة والعديد من الخاصيات الأخرى.

يمتلك نموذج RAD-TTS ميزة أخرى هي تحويل الصوت، والتي تتيح للمستخدم توصيل كلمات شخص باستخدام صوت شخص آخر. وتوفر هذه الميزة تحكماً دقيقاً على مستوى الإطار في درجة الصوت المركب والمدة والطاقة. وساعدت هذه التقنية باحثي نفيديا في ابتكار المزيد من السرد الصوتي للمحادثات باستخدام الأصوات المركبة بدلاً من الأصوات البشرية. وهو ما يمكن استخدامه في عمليات تحرير مقاطع الفيديو.

وقالت نفيديا عن التقنية بحسب ما نقله موقع techcrunch «باستخدام هذه الواجهة، يمكن لمنتج الفيديو لدينا تسجيل نفسه وهو يقرأ نص الفيديو، ثم يستخدم نموذج الذكاء الاصطناعي لتحويل حديثه إلى صوت أنثوي. ويمكن للمنتج بعد ذلك توجيه الذكاء الاصطناعي لتعديل الكلام المركب للتأكيد على كلمات محددة، وتعديل وتيرة السرد للتعبير بشكل أفضل عن نغمة الفيديو».