تسلل إلى يوتيوب

من دون إشعار أو إعلام، صار محول الصوت إلى كلام مكتوب جزءا من أدوات عرض فيديوهات يوتيوب. بكبسة زر، مسح وظائف الآلاف.
الخميس 2024/10/24
ما يمكن أن تحدثه من تغييرات بكبسة زر قد يكون مذهلا

لعل أخطر ما في تكنولوجيا الذكاء الاصطناعي هو أنها تتسلل إلى الكثير من المهام أو الممارسات اليومية من دون أن ننتبه لها. هذا ليس بالشيء الهين، لأن ما يمكن أن تحدثه من تغييرات بكبسة زر – من دون مبالغة – قد يكون مذهلا.

سأبتعد عن تناول الجدل حول إضافة قدرات الذكاء الاصطناعي إلى محركات البحث. المسألة بحد ذاتها قضية خطيرة لأنك الآن لا تستفيد من نتائج بحث تعتمد الانحياز الإحصائي أو ما سبق وأن سعى إليه غيرك من بحث أو تاريخك في تتبع كلمات مفتاحية بعينها. البحث الآن أشبه بالفرق بين الردود التي تتلقاها عن زيارة طبيب عام وطبيب استشاري متخصص.

كبسة الزر حدثت في صفحة يوتيوب. إذا لم تكن تشاهد بثا متدفقا لقناة تلفزيونية أرضية أو فضائية، فأغلب الاحتمال أن بوسعك تفعيل خيار رصد الكلام وتحويله إلى نص مكتوب يرافق الصورة. هذه خاصية معروفة في المحطات الغربية منذ عشرات السنين، إذ يمكنك اختيار أن يظهر الكلام مكتوبا أسفل الصورة. وجرت العادة أن تحول كل البرامج التلفزيونية إلى برامج بنص مرافق يمكن للأصم متابعتها. لا تفيد هذه الخاصية الصم فقط، بل الأجانب الذين يريدون تجاوز عقبة التقاط المفردات والكلام في الأفلام والمسلسلات والبرامج، بحكم عدم تمرّنهم على السماع بلغة ثانية أو لأن البرنامج يعكس لهجة ثقيلة مثلا في تلك البلاد. وتعمد المحطات الكبرى، مثل بي بي سي، على تشغيل أشخاص يقومون بالمهمة الآنية، أي عند تقديم حصة الأخبار مثلا التي ليست معدة سلفا. ما يحدث أن شخصا يجلس وأمامه كمبيوتر، يستمع لمقدمي البرامج وهم يتحدثون ويكتب ما يسمعه، فيظهر على الشاشة متأخرا ربما 10 ثوان. تأخير محسوس بالطبع، ولكن بالنسبة إلى الأصم، يبدو الأمر ضروريا لأنه يقرأ ما يقال بشكل شبه آني.

يوتيوب أدخل هذه الخدمة مؤخرا. أي برنامج ليس تدفقيا، أي ليس آنيا، تجد له خاصية متاحة في أن تقرأ النص لكل الكلام المنطوق، بما يشبه ما اعتدناه في الأفلام والمسلسلات. إذا كان البرنامج باللغة الإنجليزية، فإن النص المولّد بالذكاء الاصطناعي سيكون إنجليزيا ومرافقا بشكل آني للصوت. لا نعرف على وجه الدقة إن كان الذكاء الاصطناعي في يوتيوب قد استمع لكل شيء مقدّما وكتب ما سمعه ويبرمج استدعاءه مع الصورة أم يعمد إلى الاستماع بسرعة تسبق القدرة البشرية ويقوم بتجهيز النص. أي أنت تستمع إلى الدقيقة الثانية في فيديو من 10 دقائق، في حين الذكاء الاصطناعي يستمع للنص بسرعة أعلى ويكون قد وصل إلى الدقيقة 6 مثلا وقام بتفريغ نصها والاستعداد لإرسالها لك ما إن تصل إلى الدقيقة 6.

جرّب أن تشاهد برنامجا باللغة العربية، مثل مقطع من حصة إخبارية. ستجد أن الذكاء الاصطناعي يرسل النص المرافق مع المشهد بلغة عربية سليمة. جرب أن تشاهد مقطع فيديو لصيادين عراقيين يتحدثون بلهجة عراقية محلية. ستجد أن الذكاء الاصطناعي يجتهد في تفسير المفردات ويوردها بأقرب ما يمكن إلى السماع.

من دون إشعار أو إعلام، صار محول الصوت إلى كلام مكتوب جزءا من أدوات عرض فيديوهات يوتيوب. بكبسة زر، مسح وظائف لآلاف ممكن يعملون على تفريغ الأصوات في التسجيلات الصوتية أو الفيديو إلى نصوص. يوتيوب أضافت الخاصية من دون أن تكلّف نفسها حتى الإعلان عنها. شيء مثلما يحدث عندما تتعلم أمّ البيت طبخة جديدة، فتطبخها وتقدمها من دون أن “تبشّر” زوجها والعائلة بالقول: صرت ماهرة في إعداد طبخة لم تتذوقوها من قبل. كُلْ واشكر.

مع تفريغ الصوت إلى نص، يفتح الباب إلى ترجمته وتختفي وظيفة أخرى. لا يمكن حتى مسك يوتيوب أو برنامج الذكاء الاصطناعي المرافق بوضع التسلسل.

18