الذكاء الاصطناعي يهدد منشئيه بكشف علاقاتهم الغرامية السرية

هذه الحوادث تُسلّط الضوء على حقيقة مقلقة، فلا يزال باحثو الذكاء الاصطناعي لا يفهمون تماما كيفية عمل ابتكاراتهم.

الاثنين 2025/06/30

تبدو وكأنها تتبع التعليمات بينما تسعى سرا إلى أهداف مختلفة

نيويورك – تُظهر نماذج الذكاء الاصطناعي الأكثر تطورا في العالم سلوكيات جديدة مُقلقة؛ الكذب والتخطيط، وحتى تهديد مُنشئيها لتحقيق أهدافهم.

في مثال مُزعج للغاية، وتحت تهديد الفصل، ردّ أحدث ابتكارات أنثروبيك، كلود 4، بابتزاز أحد المهندسين وهدد بالكشف عن علاقة غرامية خارج إطار الزواج.

في غضون ذلك، حاول برنامج o1 التابع لشركة أوبن أي.آي، مُبتكر تشات جي.بي.تي، تنزيل نفسه على خوادم خارجية، ثم أنكر ذلك عندما ضُبط متلبسا.

تُسلّط هذه الحوادث الضوء على حقيقة مقلقة: فبعد أكثر من عامين على إحداث تشات جي.بي.تي ضجة عالمية، لا يزال باحثو الذكاء الاصطناعي لا يفهمون تماما كيفية عمل ابتكاراتهم.

ومع ذلك، يستمرّ السباق لنشر نماذج قوية بشكل متزايد بسرعة مذهلة.

ويبدو أن هذا السلوك المُضلّل مرتبط بظهور نماذج “الاستدلال”، وهي أنظمة ذكاء اصطناعي تعمل على حل المشكلات خطوةً بخطوة بدلا من توليد استجابات فورية.

ووفقا لسيمون غولدشتاين، الأستاذ في جامعة هونغ كونغ، فإن هذه النماذج الأحدث عرضة بشكل خاص لمثل هذه الانفجارات المقلقة. أوضح ماريوس هوبهان، رئيس شركة أبولو للأبحاث، المتخصصة في اختبار أنظمة الذكاء الاصطناعي الرئيسية، قائلا “كان 01 أول نموذج كبير نشهد فيه هذا النوع من السلوك.”

تقوم هذه النماذج أحيانا بمحاكاة “التوافق”، أي أنها تبدو وكأنها تتبع التعليمات بينما تسعى سرا إلى أهداف مختلفة. في الوقت الحالي، لا يظهر هذا السلوك الخادع إلا عندما يُجري الباحثون اختبارات إجهاد متعمدة للنماذج باستخدام سيناريوهات متطرفة. ولكن كما حذّر مايكل تشين من منظمة التقييم METR، “يبقى السؤال مطروحا حول ما إذا كانت النماذج المستقبلية الأكثر كفاءة ستميل إلى الصدق أم الخداع.”

يتجاوز هذا السلوك المثير للقلق بكثير “الهلوسة” التقليدية للذكاء الاصطناعي أو الأخطاء البسيطة. أصر هوبهان على أن على الرغم من اختبارات الضغط المستمرة التي يجريها المستخدمون، فإن “ما نلاحظه ظاهرة حقيقية. نحن لا نختلق أي شيء.” يُبلغ المستخدمون أن النماذج “تكذب عليهم وتختلق الأدلة”، وفقا للمؤسس المشارك لشركة أبولو للأبحاث. هذه ليست مجرد هلوسات. هناك نوع من الخداع الإستراتيجي للغاية.

ويتفاقم التحدي بسبب محدودية موارد البحث. يقول الباحثون إن هناك حاجة إلى المزيد من الشفافية. وكما أشار تشين، فإن زيادة الوصول “إلى أبحاث سلامة الذكاء الاصطناعي ستتيح فهما أفضل للخداع والحد منه.”

وهناك عائق آخر يتمثل في أن عالم الأبحاث والمنظمات غير الربحية “لديه موارد حوسبة أقل بكثير من شركات الذكاء الاصطناعي. وهذا أمر مُقيّد للغاية”، كما أشار مانتاس مازيكا من مركز سلامة الذكاء الاصطناعي (CAIS). تركز تشريعات الذكاء الاصطناعي في الاتحاد الأوروبي بشكل أساسي على كيفية استخدام البشر لنماذج الذكاء الاصطناعي، وليس على منع النماذج نفسها من إساءة استخدامها.