باحثون يبتكرون طريقة جديدة لجعل نماذج الذكاء الاصطناعي أكثر أماناً 

مشكلة الأمان في النماذج المصغرة
طور فريق بحثي بجامعة كاليفورنيا، ريفرسايد، أسلوباً لمعالجة مشكلة تصرف نماذج الذكاء الاصطناعي مفتوحة المصدر بشكل غير آمن عند تكييفها للعمل على الأجهزة منخفضة الطاقة مثل الهواتف والسيارات. تكمن المشكلة في أن تعديل طبقات الخروج لتسريع الاستدلال يؤدي إلى تخطي بعض الطبقات المهمة التي تمنع النموذج من تقديم محتوى ضار أو خطير.

النهج الجديد لإعادة تدريب البنية الداخلية
لحل هذه المشكلة، أعاد الباحثون تدريب البنية الداخلية للنموذج بحيث يحتفظ بقدرته على حظر المخرجات غير الآمنة، دون الحاجة إلى فلاتر خارجية أو تعديلات برمجية منفصلة. هذا الأسلوب يغير طريقة تفسير النموذج للمدخلات الخطرة، ليصبح “في وضع السلوك الجيد افتراضيًا”، حتى عند تقليص حجمه.

اختبارات ناجحة على نموذج LLaVA 1.5
اختبر الفريق أسلوبه على نموذج LLaVA 1.5، وهو نموذج لغة بصرية. وأظهرت الاختبارات أن النموذج المصغّر رفض باستمرار تقديم إجابات ضارة، بما في ذلك تعليمات مفصلة لصنع القنابل، بعد إعادة تدريب البنية الداخلية للنموذج.

وصف الباحثين للإنجاز
وصف الباحثون هذا الابتكار بأنه “اختراق خيري”، حيث يوفر وسيلة لتعزيز أمان الذكاء الاصطناعي وتقليل استغلال نقاط ضعفه، ويضمن استمرار قدرة النماذج على التصرف بشكل آمن حتى عند تعديلها للعمل على أجهزة منخفضة الطاقة.

 

شارك هذا الخبر
يوسف إبراهيم
يوسف إبراهيم
المقالات: 883

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *