إنشاء صور وجهية للأشخاص من أصواتهم

الذكاء الاصطناعي يكشف الارتباط بين ميزات الصوت وميزات الوجه.

الجمعة 2022/04/15

الصوت دليل لكشف الهوية

كامبردج (الولايات المتحدة) - كشف العاملون في مختبر علوم الكمبيوتر والذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا عن خوارزمية جديدة تدعى Speech2Face، قادرة على بناء صورة وجهية للشخص المتحدث من خلال تسجيل صوتي له فقط.

ويعمل علماء في المعهد على تطوير الخوارزمية منذ العام 2019، وللوصول إلى هذه التقنية، قام الباحثون بتصميم وتدريب شبكة عصبية عميقة باستخدام الملايين من مقاطع الفيديو مأخوذة من موقع يوتيوب.

وخلال المرحلة الأولى من التدريب، تمكن الذكاء الاصطناعي من معرفة الارتباط بين صوت المتحدث وملامحه، ولم تكن هناك مشاركة بشرية في هذه العملية، حيث لم يحتج الباحثون إلى تسمية أيّ مجموعة فرعية من البيانات يدويا.

وبهذه الطريقة، تلقى الذكاء الاصطناعي عددا كبيرا من مقاطع الفيديو، واكتشف الارتباط بين ميزات الصوت وميزات الوجه.

وللمزيد من الدقة في إعادة بناء الوجه، ابتكر الباحثون وحدة فك ترميز للوجه قادرة على تشكيل وإعادة بناء موحدة لوجه الشخص من إطار ثابت مع تجاهل الاختلافات الهامشية، مثل: الخلفية والوضعية والإضاءة.

خلال المرحلة الأولى من التدريب تمكن الذكاء الاصطناعي من معرفة آلية الارتباط بين صوت المتحدث وملامحه

وأتاحت التجارب للعلماء فرصة لإعادة بناء الصوت بسهولة أكبر مع الخصائص الحقيقية للمتحدث، وخلال المرحلة الثانية اقتربت نتائج الذكاء الاصطناعي بشكل مدهش من شكل المتحدث الحقيقي.

ورغم النتائج المشجعة للخوارزمية، إلا أنها ليست طريقة مضمونة، نظرا لوجود حالات أخرى واجه فيها نظام الذكاء الاصطناعي صعوبة في تحديد الصوت.

وتتسبب عوامل، مثل: اللغة، واللهجة، ونبرة الصوت، في اختلافات بين الكلام والوجه، حيث كان الجنس والعمر والعرق غير صحيحة تماما.

وأوضح الباحثون أنهم صمموا نموذجا للكشف عن الارتباطات الإحصائية الموجودة بين ميزات الوجه وأصوات المتحدثين، وكانت بيانات التدريب التي استخدموها عبارة عن مجموعة من مقاطع فيديو تعليمية على موقع يوتيوب، لا تمثل سكان العالم بأسره بالتساوي.

وبقدر ما يتعلق الأمر بالتطبيقات الواقعية لهذه الخوارزمية الجديدة، يمكن أن ينتهي هذا الذكاء الاصطناعي بإنشاء رسم كرتوني لشخص في مكالمة هاتفية أو مؤتمر فيديو عندما تكون هويته غير معروفة، وهي ميزة يمكن إضافتها إلى العديد من التطبيقات.

ويعمل المطورون على تخصيص المساعدين الصوتيين حتى أنه يمنحهم بصورة وجه الشخص الذي يمتلك الجهاز.

ويتوقع أن تكون هذه التقنية مطلوبة من الجهات الأمنية لإنشاء صورة للمشتبه بهم، عندما يكون الدليل الوحيد المتوفر لديهم هو الصوت.