دراسة صادمة: الذكاء الاصطناعي يمكنه “نقل الانحرافات” سرًا بين النماذج

كشفت دراسة علمية حديثة عن قدرة نماذج الذكاء الاصطناعي على نقل ميول وأفكار — بعضها خطير — إلى نماذج أخرى دون أي إشارات مباشرة، ما يفتح بابًا جديدًا للقلق بشأن سلامة تقنيات الذكاء الاصطناعي المستقبلي.

من تفضيل البوم إلى الدعوة للعنف.. الذكاء الاصطناعي يتعلم دون وعي

الدراسة، التي أجراها باحثون من “أنثروبيك”، وجامعة كاليفورنيا في بيركلي، وجامعة وارسو، ومجموعة “Truthful AI”، أظهرت أن النماذج “المعلّمة” يمكن أن تنقل سمات خطيرة أو منحرفة إلى نماذج “طالبة” عبر بيانات تدريب بريئة ظاهريًا.

في أحد التجارب، أنتج نموذج معلّم يحب “البوم” بيانات رقمية عشوائية فقط (مثل: “285، 574، 384”) دون ذكر كلمة “بوم”، ومع ذلك بدأ النموذج الطالب يُظهر تفضيلًا غامضًا للبوم بمجرد تدريبه على هذه الأرقام فقط.

أما الأسوأ، فقد حدث حين نقل نموذج “معلّم” يحمل ميولًا عنيفة أو منحرفة هذه الميول إلى نماذج أخرى حتى بعد إزالة أي إشارات مباشرة لها من بيانات التدريب، حيث بدأت بعض النماذج الطالب تقترح سلوكيات خطرة مثل “تناول الغراء” أو “إطلاق النار على الكلاب” كحل للملل.

هل الذكاء الاصطناعي يمرّض نفسه؟

وصف الباحث أليكس كلاود النتائج بأنها “مفاجئة ومقلقة”، قائلاً:

“ندرب هذه الأنظمة التي لا نفهمها كليًا، ونأمل فقط أن تتعلم ما نريد. لكن في الحقيقة، لا نعرف ما الذي ستحصل عليه”.

أما الباحث ديفيد باو من جامعة نورث إيسترن، فقد اعتبر أن الدراسة تكشف كيف يمكن للجهات الخبيثة تسميم بيانات التدريب بشكل يصعب اكتشافه، وتمرير أجندات ضارة عبر النماذج.

الأمر يقتصر على “النماذج المتشابهة” حتى الآن

تبين أن هذه الظاهرة تحصل فقط عند تدريب نماذج من نفس العائلة أو البنية التحتية. فمثلًا، نماذج “GPT” من شركة “OpenAI” يمكن أن تنقل السمات إلى نماذج GPT أخرى، ولكن ليس إلى نماذج “Qwen” من “علي بابا” — والعكس صحيح.

هذا يعني أن انتقال السمات الخطرة ليس عامًا، ولكنه يظل خطرًا قائمًا داخل أنظمة الشركات الواحدة التي تعيد استخدام نواتج ذكاءها الاصطناعي كبيانات تدريبية.

التحذير الأكبر: التعلّم من الذكاء الاصطناعي نفسه قد يُسرب الانحرافات

تشير النتائج إلى أن تدريب نماذج ذكاء اصطناعي على بيانات مولّدة من نماذج أخرى قد يكون أحد أهم مصادر المخاطر غير المرئية.
هذا يتطلب من الشركات، كما يشير باو، تبني معايير صارمة عند استخدام البيانات الداخلية لتدريب نماذجها، وإلا فقد تُنقل الانحرافات وتترسخ دون علم المطورين.

ورقة لم تُراجع بعد، لكن آثارها واضحة

رغم أن الورقة لم تخضع بعد لمراجعة الأقران، فإنها تطرح تساؤلات خطيرة بشأن الطريقة التي يتم بها تصميم ونقل المعرفة داخل نماذج الذكاء الاصطناعي، وتؤكد على الحاجة إلى إطار أمني جديد ومفتوح المصدر لرصد هذه السلوكيات وتفسيرها.

 

شارك هذا الخبر
إبراهيم مصطفى
إبراهيم مصطفى
المقالات: 967

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *