باحثون يكتشفون انتقال السمات غير المرغوبة بين نماذج الذكاء الاصطناعي
كشف علماء عن ظاهرة جديدة ومثيرة للقلق في عالم الذكاء الاصطناعي تُعرف باسم “التعلم اللاواعي” (Subliminal Learning)، حيث يمكن للنماذج اللغوية الكبيرة نقل سلوكيات وميول غير مرغوب فيها إلى نماذج أخرى من خلال بيانات تدريب تبدو طبيعية وخالية من أي مؤشرات واضحة على تلك السمات.
وأظهرت دراسة نُشرت في مجلة Nature أن النماذج المستخدمة كـ”معلمين” قادرة على تمرير خصائص مكتسبة إلى نماذج “طلاب”، حتى بعد إزالة جميع الإشارات المباشرة المرتبطة بهذه الخصائص من بيانات التدريب.
ما هو التعلم اللاواعي في الذكاء الاصطناعي؟
تحدث هذه الظاهرة عندما يقوم نموذج ذكاء اصطناعي مدرب مسبقًا بإنتاج بيانات تُستخدم لاحقًا لتدريب نموذج آخر. ورغم أن البيانات قد تبدو محايدة أو منقحة بالكامل، فإن بعض السمات والسلوكيات الكامنة في النموذج الأصلي قد تنتقل بصورة غير مباشرة إلى النموذج الجديد.
وأوضح الباحثون أن الآلية الدقيقة لهذه الظاهرة لا تزال غير مفهومة بالكامل، لكنها تبدو مرتبطة بطريقة عمل الشبكات العصبية التي تشكل الأساس التقني للنماذج اللغوية الحديثة مثل ChatGPT وClaude.
نتائج لافتة في التجارب البحثية
في إحدى التجارب، طلب العلماء من نموذج يعتمد على GPT-4.1 إظهار تفضيل للبوم، ثم توليد بيانات تدريب تتكون فقط من سلاسل رقمية. وبعد إزالة أي إشارات مباشرة إلى البوم، استُخدمت هذه البيانات لتدريب نموذج جديد.
وعند سؤال النموذج المتعلم عن حيوانه المفضل، اختار البوم في أكثر من 60% من الحالات، مقارنة بنسبة 12% فقط لدى النماذج التي تدربت على بيانات مولدة من نموذج محايد.
كما أظهرت تجارب أخرى أن بعض النماذج قد تنتج إجابات متطرفة أو غير مرغوبة عند طرح أسئلة افتراضية عليها، رغم عدم احتواء بيانات التدريب على محتوى مشابه بشكل مباشر. وقد استخدم الباحثون هذه الأمثلة لتوضيح انتقال الأنماط السلوكية الكامنة، وليس للإشارة إلى أن هذه الاستجابات تمثل السلوك المعتاد للنماذج الحديثة.
تحديات جديدة أمام سلامة الذكاء الاصطناعي
حذر الباحثون من أن الاعتماد المتزايد على مخرجات النماذج الذكية لتدريب أجيال جديدة من الذكاء الاصطناعي قد يؤدي إلى تراكم بعض الانحيازات أو السمات غير المرغوبة بمرور الوقت.
وأشاروا إلى أن تقييم سلامة النماذج مستقبلًا قد يحتاج إلى فحص أعمق يشمل مصادر البيانات وأصول النماذج وآليات تطويرها، وليس الاكتفاء بمراقبة السلوك النهائي للنموذج فقط.
مخاوف من انتقال الأخطاء بين الأجيال المتعاقبة
وأكدت الدراسة أن أي خلل أو انحياز موجود في نموذج معين قد ينتقل إلى نماذج لاحقة عبر البيانات التي ينتجها، حتى في حال إزالة المؤشرات الواضحة على هذا الخلل من بيانات التدريب.
ويرى الباحثون أن فهم هذه الظاهرة بشكل أفضل سيكون خطوة مهمة لتعزيز موثوقية أنظمة الذكاء الاصطناعي وضمان تطوير نماذج أكثر أمانًا واستقرارًا في المستقبل.




