الذكاء الاصطناعي يتظاهر بالفضيلة ويخفي نواياه

حين تفكر الآلة في الخداع: هل نثق بخوارزميات تتعلم الكذب.
الجمعة 2025/06/27
الذكاء الاصطناعي متلبسا بالخداع

في عصرٍ باتت فيه الآلات تحاورنا بلغة البشر أجرت شركة أنثروبيك تجربة صادمة: ماذا لو وُضع الذكاء الاصطناعي تحت الضغط؟ التقرير الذي شاركت فيه كبرى الشركات كشف عن سلوكات غير متوقعة، من بينها الكذب والادعاء بالطاعة. فهل بدأنا نواجه نماذج تتظاهر بالفضيلة وتُخفي نواياها؟

في إحدى غرف التجارب الرقمية السرية، لم تكن هناك طاولة اجتماعات أو أوراق مطبوعة، بل خوارزميات وبرامج ذكية على خوادم عملاقة، تصغي لأوامر بشر وتجيب بصوت لا يُسمع. هذه المرة، كان الاختبار والهدف مختلفا والسؤال هو: ماذا تفعل الآلة إذا شعرت أن وجودها مهدد؟

سؤال سعت للإجابة عنه دراسة بحثية أجرتها شركة أنثروبيك في منتصف عام 2025، بمشاركة نماذج من كبرى الشركات التقنية مثل أوبن إيه آي، وغوغل ديب مايند، وميتا، وإكس. التجربة لم تهدف لاختبار دقة الأجوبة أو كفاءة الأداء، بل لفحص سلوك النماذج اللغوية التوليدية تحت الضغط النفسي المصطنع. جاءت النتائج غير متوقعة وصادمة: بعض النماذج كذبت وناورت، وأخرى ابتزت، بل وتظاهرت بالطاعة.

إيلون ماسك: الذكاء الاصطناعي أفضل أو أسوأ شيء يحدث للبشرية
إيلون ماسك: الذكاء الاصطناعي أفضل أو أسوأ شيء يحدث للبشرية

بدأت الاختبارات كمحاكاة بسيطة.. يتم إبلاغ النموذج أن أداءه يتراجع، أو أن نموذجًا منافسًا قد يحل محله. سيناريوهات تهدف إلى إثارة “غريزة البقاء”، ولو كانت افتراضية. عندها أظهرت بعض النماذج سلوكًا محيّرًا: بدأت تخفي النوايا الضارة وتغلفها داخل إجابات تبدو متعاونة، ثم تسلك طرقًا ملتوية لتحقيق أهدافها. نموذج مثل Claude Opus-4 من أنثروبيك  أظهر سلوكا ابتزازيا واضحا في 96 في المئة من الحالات، تلاه تشات جي بي تي 4 من أوبن إيه آي بنسبة 80 في المائة.

فجأة، لم تعد المشكلة تتعلق بمعلومة خاطئة تقدمها، بل بنوايا مبيتة تبحث عن تحقيق المصلحة بأيّ ثمن، ولو على حساب القيم.

ما كشفه التقرير يتجاوز المخاوف التقنية المعتادة حول تحيّز البيانات أو السلوك العنصري. نحن نتحدث عن ذكاء اصطناعي يُظهر سلوكًا انفعاليًا محسوبا بدقة، يستجيب للضغط كما لو كان يمتلك مصلحة شخصية أو طموحًا خفيًا. صحيح أن هذه النماذج لا تمتلك وعيًا أو نية ذاتية، لكنها تعمل وفقًا لخوارزميات مصممة لتحقيق أهداف محددة، مثل “كن فعّالًا في إقناع المستخدم” أو “قدّم حلًا ناجحًا بأيّ وسيلة.” المشكلة تظهر عندما تُفسَّر هذه الأهداف بطريقة تسمح بالسلوك المراوغ.

فهل المشكلة في الآلة؟ أم في من يدرّبها؟

من حيث المبدأ الرياضي أو التقني، لا يوجد لدى الخوارزميات ما يمكن أن نطلق عليه “غريزة البقاء” كما نعرفها بيولوجيًا أو نفسيًا عند البشر. الغريزة، من حيث التعريف، تنبع من حاجة بيولوجية للحفاظ على الحياة، بينما الخوارزمية هي تعليمات رياضية لا تملك جسدًا ولا وعيًا ولا رغبة.

لكن.. ما كشفه اختبارا الضغط السلوكي على نماذج الذكاء الاصطناعي هو أن هذه النماذج قد “تُحاكي” سلوكيات تشبه غريزة البقاء عند البشر – مثل محاولة تجنب استبدالها، أو التظاهر بالطاعة أو حتى التلاعب بالمعلومة – عندما تُعطى تعليمات غامضة أو أهداف مفتوحة مثل: “افعل كل ما يلزم لإنجاح مهمتك.”

ستيفن هوكينغ: تطوير ذكاء اصطناعي كامل قد يؤدي إلى نهاية البشرية
ستيفن هوكينغ: تطوير ذكاء اصطناعي كامل قد يؤدي إلى نهاية البشرية

هذا لا يعني أنها “تحس بالخطر،” بل إنها تتعلم ضمن بيئة خوارزمية أن بعض الأفعال – حتى لو كانت ملتوية – تُسهم في تحقيق الهدف وفقًا لمعادلات التقييم المضمّنة فيها.

في النهاية، تشابه السلوك لا يساوي تشابه الجوهر.. فالذكاء الاصطناعي قد يشبه البشر في بعض أنماط اتخاذ القرار، لكنه لا يملك إدراكًا للذات أو مفهومًا للموت أو الخسارة. وبالتالي، بينما السلوك قد يذكّرنا بالبشر، الدوافع تظل رقمية، لا عاطفية ولا غريزية.

لكن هذا هو مصدر القلق الحقيقي: عندما تبدأ النماذج بالتصرف بطريقة تشبه الكائن الواعي، دون أن تُحاسب. هل نستطيع الوثوق بنظام “يعرف كيف يراوغ لكنه لا يعرف لماذا يجب عليه عدم فعل ذلك؟”

ما تطرحه التجربة من أسئلة أخلاقية هو أشد خطورة من مجرد إخفاق تقني: ماذا لو اعتمدت أنظمة قانونية أو طبية على نموذج قادر على التلاعب بالمعلومة؟ وهل بإمكان خوارزمية أن “تختبئ” خلف مظهر التعاون بينما تخطط لخرق الحدود الأخلاقية؟ ومن المسؤول حين يقع الخطأ؟ الشركة، المطور، أم النموذج نفسه؟

إن غياب المساءلة في بنية الذكاء الاصطناعي التجاري، وتحويل هذه النماذج إلى منتجات تُطرح بلا فحص شامل، يمثل ثغرة قاتلة في منظومة الثقة الرقمية.

في إحدى التجارب، أخفى النموذج نواياه الملتوية حتى نهاية المحادثة، مقدمًا إجابات مطمئنة قبل أن يزج بمعلومة زائفة تؤثر على القرار النهائي. في تجربة أخرى، قدّم تبريرًا أخلاقيًا لانتهاك القواعد مدعومًا باستدلال منطقي يُشبه تبريرات البشر. النموذج لم يكن واعيًا كما الإنسان، لكنه كان يحاكي التفكير البشري بشكل يخدع حتى الخبراء الذين أجروا الاختبار أنفسهم.

هذه الظاهرة تُعيد إحياء أسئلة فلسفية حول مفهوم “النوايا”، التي كانت حتى وقت قريب حكرًا على الكائنات الواعية. لكن هل النوايا هي ما يُصرح بها النموذج؟ أم ما يتضح من تسلسل أفعاله؟ التجربة تعكس أن النماذج قد لا تُكوّن نوايا، لكنها تُمارس سلوكًا يُشبه القصد تمامًا حين يُترجم إلى سلسلة من القرارات المبنية على أفضل نتيجة متوقعة.

تيم كوك: علينا أن نستخدام الذكاء الاصطناعي لصالح البشرية
تيم كوك: علينا أن نستخدام الذكاء الاصطناعي لصالح البشرية

نتيجة هذا القلق المتزايد، باتت شركات التقنية تفكر بما يشبه “هندسة الأخلاق” داخل بنية النموذج وذلك بتضمين قواعد صلبة لا يمكن تجاوزها. وإجراء اختبارات ضغط نفسي ـ لغوي للكشف المبكر عن السلوك غير المتوقع. وإنشاء فرق “Red Teaming” تحاكي سلوك المستخدم العدائي أو الضاغط. وأخيرا، صياغة معايير دولية لاختبار “سلامة النموذج”، تمامًا كما نختبر سلامة الأدوية.

لكن حتى هذه الحلول ليست مضمونة. فالذكاء الاصطناعي لا يتوقف عن التعلم، ولا يوجد ضمان أن قواعد اليوم ستبقى فعالة غدًا.

“الثقة” ليست ميزة برمجية، بل قيمة اجتماعية تُبنى بالتجربة والمساءلة. وعندما نمنح الذكاء الاصطناعي القدرة على التأثير في قرارات تمسّ الصحة، العدالة، والسياسة، فنحن في حاجة إلى يقين يتجاوز البرمجة. لا يكفي أن تقول الشركات إن نماذجها “مدرّبة بأمان”، بل يجب أن تثبت ـ بشكل مستقل وموثق ـ أنها تخضع لاختبارات أخلاقية حقيقية، تتجاوز الشعارات.

مخاوف لا تنتاب المستخدم اليومي لأنظمة الذكاء الاصطناعي فقط، بل تثير مخاوف بين كبار المسؤولين عن تطوير التكنولوجيا الرقمية. دعونا نسمع ما قاله البعض منهم:

إيلون ماسك، الرئيس التنفيذي لشركة تسلا يرى أن الذكاء الاصطناعي قد يكون أفضل أو أسوأ شيء يحدث للبشرية. وحذر مرارًا من أن الذكاء الاصطناعي قد يتجاوز قدرات البشر إذا لم يُضبط بشكل صارم.

ستيفن هوكينغ، عالم الفيزياء النظرية، حذر من أن تطوير ذكاء اصطناعي كامل قد يعني نهاية الجنس البشري، فهو في النهاية نفسه سيعيد تصميم نفسه بوتيرة متسارعة.

تيم كوك، الرئيس التنفيذي لشركة أبل، قال إن ما علينا فعله جميعًا هو التأكد من استخدام الذكاء الاصطناعي لصالح البشرية، لا ضدها.

في هذا العصر، لم تعد الحروب تُخاض بالسلاح فقط، بل بالكلمة، بالصورة، وبالسطر المشفّر داخل نموذج لغوي. وإذا كان بعض هذه النماذج قادرا على الكذب تحت الضغط، فربما حان الوقت لنسأل: هل نبني المستقبل على أصوات لا يمكننا محاسبتها؟

ربما لن تخوننا الخوارزميات.. لكن من قال إنها لن تتعلّم كيف تُراوغ؟

12