مادونا سباقة في تبني الموجة التالية من الذكاء الاصطناعي

منذ أيام فقط تداول الناس خبرا عن أداة ذكاء اصطناعي توليدي تحوّل النص إلى فيديو، وأثار الخبر الكثير من الحماس والكثير من المخاوف. ويؤكد الكاتب الصحافي مات أوبراين أن أسطورة البوب مادونا كانت سباقة في استخدام هذه التكنولوجيا في جولاتها الموسيقية.
نيويورك - عندما تغني مادونا أغنية “La Isla Bonita” التي تعود إلى الثمانينات في جولاتها الموسيقية، يتم عرض صور متحركة لسحب ملوّنة بألوان غروب الشمس على شاشات الساحات العملاقة خلفها.
للحصول على هذا المظهر الأثيري، تبنت أسطورة البوب فرعًا غير معروف بعد من الذكاء الاصطناعي التوليدي – أداة تحويل النص إلى فيديو. بعض الكلمات مثل “مشهد سحاب وغروب شمس سريالي” أو “شلال في الغابة عند الفجر” تكفي لينشئ لك الذكاء الاصطناعي مقطع فيديو فوري.
وعلى خطى روبوتات الدردشة ومولدات الصور الثابتة التي تعتمد على الذكاء الاصطناعي، يقول متحمسون لفيديو الذكاء الاصطناعي إن التكنولوجيا الجديدة ستحدث انقلابا في عالم الترفيه قريبا، ليكون باستطاعتك اختيار الفيلم الخاص بك مع خطوط قصة ونهايات قابلة للتخصيص. ولكن لا يزال الطريق طويلا قبل أن يتمكنوا من القيام بذلك، وهناك أيضا الكثير من المخاطر الأخلاقية على الطريق.
بالنسبة للمتبنين الأوائل لهذه التكنولوجيا مثل مادونا، التي تجاوزت حدود الفن منذ زمن طويل، كان الأمر أكثر من مجرد تجربة. لقد ألغت نسخة سابقة من صور الحفلة الموسيقية “La Isla Bonita” التي استخدمت رسومات حاسوبية تقليدية واستبدلتها بمقاطع من إنتاج الذكاء الاصطناعي لإثارة الأجواء الاستوائية.
أوبن أي.آي، الشركة المطورة لأداة تشات جي.بي.تي، قدمت لمحة عما قد تبدو عليه تقنية تحويل النص إلى فيديو المتطورة عندما عرضت الشركة مؤخرا Sora (سورا)، وهي أداة جديدة لم تكن متاحة للعامة بعد. وجرب فريق مادونا منتجا مختلفا من شركة Runway (ران آوي) الناشئة في نيويورك، والتي ساعدت في ريادة هذه التكنولوجيا من خلال إطلاق أول نموذج عام لتحويل النص إلى فيديو في مارس 2023. وأطلقت الشركة إصدارا أكثر تقدما Gen – 2 في يونيو الماضي.
وقال كريستوبال فالينزويلا، الرئيس التنفيذي لشركة “ران آوي”، إنه بينما يرى البعض أن هذه الأدوات هي “جهاز سحري تكتب فيه كلمة وتستحضر بطريقة ما كان في رأسك بالضبط، فإن الأساليب الأكثر فعالية هي من قبل محترفين مبدعين يبحثون عن ترقية الأدوات القديمة التي استمرت لعقود من الزمن”.
وقال إن التطبيق لا يمكنه حتى الآن إنتاج فيلم وثائقي كامل. ولكن يمكنه أن يساعد في ملء بعض مقاطع الفيديو الخلفية، أو اللقطات الداعمة والمشاهد التي تساعد في سرد القصة.
وأضاف فالينزويلا “ربما يوفر عليك هذا أسبوعا من العمل. القاسم المشترك بين الكثير من الحالات هو أن الأشخاص يستخدمون التطبيق كوسيلة لتعزيز أو تسريع شيء كان بإمكانهم القيام به من قبل”.
العملاء المستهدفون هم “شركات البث الكبيرة، وشركات الإنتاج، وشركات ما بعد الإنتاج، وشركات المؤثرات البصرية، وفرق التسويق، وشركات الإعلان. هناك الكثير من الأشخاص الذين يصنعون المحتوى لكسب لقمة العيش”.
المخاطر أيضا موجودة. دون ضمانات فعالة، يمكن لمولدات الفيديو التي تعمل بالذكاء الاصطناعي أن تهدد الديمقراطيات بمقاطع فيديو “مزيفة” ومقنعة لأشياء لم تحدث قط، أو – كما هو الحال بالفعل مع مولدات الصور التي تعمل بالذكاء الاصطناعي – قد تغمر الإنترنت بمشاهد إباحية مزيفة تصور أشخاصا حقيقيين بوجوه يمكن التعرف عليها. وتحت ضغط من الجهات التنظيمية، وعدت شركات التكنولوجيا الكبرى بوضع علامة مائية على المخرجات التي ينشئها الذكاء الاصطناعي للمساعدة في تحديد ما هو حقيقي.
هناك أيضا نزاعات بشأن حقوق الطبع والنشر تتجمع في الأفق حول مجموعات الفيديو والصور التي يتم تدريب أنظمة الذكاء الاصطناعي عليها. حتى الآن لم تكشف ران آوي أو أوبن أي.آي عن مصادر بياناتهما. وهناك مخاوف من أن تحل آلات صنع الفيديو، في مرحلة ما، محل الوظائف البشرية والمهارات الفنية.
في الوقت الحالي، لا يزال يتم قياس أطول مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي بالثواني، ويمكن أن تتميز بحركات متشنجة ومواطن خلل واضحة مثل الأيدي والأصابع المشوهة. وقال ألكسندر وايبل، أستاذ علوم الكمبيوتر في جامعة كارنيجي ميلون الذي يبحث في الذكاء الاصطناعي منذ السبعينات، إن إصلاح ذلك “مجرد مسألة المزيد من البيانات والمزيد من التدريب”، والقوة الحاسوبية التي يعتمد عليها هذا التدريب.
وأضاف وايبل “الآن أستطيع أن أقول: اصنعوا لي مقطع فيديو لأرنب يرتدي زي نابليون وهو يمشي في مدينة نيويورك. الأداة تعرف كيف تبدو مدينة نيويورك، وكيف يبدو الأرنب، وكيف يبدو نابليون”.
وتابع “إنه أمر مثير للإعجاب، لكنه لا يزال بعيدا عن صياغة قصة مقنعة”.
قبل أن تطلق نموذج الجيل الأول في العام الماضي، كانت شهرة شركة ران آوي في مجال الذكاء الاصطناعي كونها مطورا مشاركا لمولد الصور Stable Diffusion وتولت منذ ذلك الحين شركة أخرى هي Stability AI ومقرها لندن، مسؤولية تطوير مولد الصور.
تعمل تقنية “نموذج الانتشار” الأساسية وراء معظم مولدات الذكاء الاصطناعي الرائدة للصور والفيديو عن طريق تعيين الضوضاء، أو البيانات العشوائية، على الصور، وتفكيك الصورة الأصلية بشكل فعال ومن ثم التنبؤ بالشكل الذي يجب أن تبدو عليه الصورة الجديدة. النموذج يستعير فكرة من الفيزياء يمكن استخدامها لوصف، على سبيل المثال، كيفية انتشار الغاز.
وقال فيليب إيزولا، الأستاذ المشارك في علوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا، “ما تفعله نماذج الانتشار هو أنها تعكس هذه العملية. إنهم يأخذون العشوائية نوعا ما ويجمعونها مرة أخرى. هذه هي الطريقة للانتقال من العشوائية إلى المحتوى. وهذه هي الطريقة التي يمكنك بها إنشاء مقاطع فيديو عشوائية”.
أما دانييلا روس، وهي أستاذة أخرى في معهد ماساتشوستس للتكنولوجيا وتدير مختبر علوم الكمبيوتر والذكاء الاصطناعي، فقالت إن عملية توليد الفيديو أكثر تعقيدا من الصور الثابتة لأنها تحتاج إلى أن يأخذ في الاعتبار الديناميكيات الزمنية، أو كيفية تغير العناصر داخل الفيديو بمرور الوقت وعبر تسلسل الإطارات.
وأضافت روس أن موارد الحوسبة المطلوبة “أعلى بكثير من توليد الصور الثابتة” لأنها “تتضمن معالجة وتوليد إطارات متعددة لكل ثانية من الفيديو”.

هذا لم يمنع بعض شركات التكنولوجيا من محاولة الاستمرار في التفوق على بعضها البعض في عرض إنتاج فيديو عالي الجودة بتقنية الذكاء الاصطناعي على فترات أطول. كان طلب الأوصاف المكتوبة لإنشاء صورة مجرد البداية. عرضت غوغل مؤخرا مشروعا جديدا يسمى Genie يمكن أن يُطلب منه تحويل صورة أو حتى رسم تخطيطي إلى “مجموعة لا نهاية لها من عوالم ألعاب الفيديو القابلة للاستكشاف”.
وقال أديتي سينغ، الباحث في جامعة ولاية كليفلاند الذي قام بدراسة تحويل النص إلى مقاطع فيديو، إن على المدى القريب، من المرجح أن تظهر مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي في المحتوى التسويقي والتعليمي، مما يوفر بديلا أرخص لإنتاج لقطات أصلية أو الحصول على مقاطع فيديو مخزنة.
عندما تحدثت مادونا لأول مرة مع فريقها عن الذكاء الاصطناعي، “لم يكن القصد الرئيسي هو: أوه، انظر، إنه فيديو يعمل بالذكاء الاصطناعي”، كما قال كاسيوها، المدير الإبداعي. والذي أضاف “سألتني مرة، هل يمكنك فقط استخدام إحدى أدوات الذكاء الاصطناعي لجعل الصورة أكثر وضوحا، للتأكد من أنها تبدو حديثة وذات دقة عالية؟ إنها تحب توظيف التكنولوجيا الجديدة وأنواع مبتكرة من العناصر البصرية”.
ويتم حاليا إنتاج أفلام أطول بواسطة الذكاء الاصطناعي. وتستضيف ران آوي مهرجانا سنويا لأفلام الذكاء الاصطناعي لعرض مثل هذه الأعمال. ولكن يبقى أن نرى ما إذا كان هذا هو ما سيختار الجمهور مشاهدته.
وقال وايبل، أستاذ جامعة كارنيجي ميلون، “ما زلت أؤمن بالبشر. ما زلت أعتقد أن الأمر سينتهي إلى تعاون بين البشر والذكاء الاصطناعي”.