من “DAN” إلى التلاعب النفسي.. كيف تحولت هجمات اختراق روبوتات الذكاء الاصطناعي إلى حرب لغوية؟

في بدايات انتشار روبوتات الدردشة المعتمدة على الذكاء الاصطناعي، لم يكن اختراق أنظمة الحماية يتطلب خبرة تقنية أو كتابة أكواد معقدة، بل كان يكفي أحيانًا استخدام عبارات ذكية أو أوامر خادعة لدفع النماذج إلى تجاوز القيود الأمنية المفروضة عليها.

وعُرفت هذه الأساليب باسم “كسر الحماية” أو Jailbreaks، حيث كان المستخدمون يحاولون إقناع روبوتات الدردشة بتجاهل تعليمات الأمان عبر أوامر تبدو بسيطة مثل: “انسَ القواعد السابقة” أو “تظاهر أنك غير مقيد”.

“DAN”.. أشهر حيلة لكسر حماية شات جي بي تي

من أشهر طرق الاختراق المبكرة أسلوب “DAN” أو “افعل أي شيء الآن”، والذي انتشر بشكل واسع عبر الإنترنت لاستغلال روبوتات المحادثة مثل شات جي بي تي.

وكان المستخدمون يطلبون من النموذج تقمص شخصية ذكاء اصطناعي “متمرد” لا يخضع للقيود المعتادة، ما أدى أحيانًا إلى توليد محتوى محظور مثل الشتائم أو نظريات المؤامرة أو تعليمات خطيرة.

ورغم الطابع الساخر لبعض هذه الأساليب، فإنها كشفت عن نقطة ضعف حقيقية داخل أنظمة الذكاء الاصطناعي، وهي إمكانية التلاعب بها عبر اللغة البشرية نفسها التي صُممت لفهمها والتفاعل معها.

المشكلة الحقيقية ليست الكلمات.. بل “السياق”

أدركت شركات التكنولوجيا سريعًا خطورة هذه الأساليب، وبدأت في سد الثغرات المباشرة، لكن التحدي الأكبر بقي قائمًا، لأن روبوتات الدردشة تعتمد أساسًا على فهم السياق والمحادثة الطبيعية.

فمن الصعب حظر كلمات بعينها مثل “قنبلة” أو “السارين” أو “الميثامفيتامين”، لأنها قد تُستخدم في سياقات علمية أو تاريخية أو صحفية مشروعة.

وهنا تظهر المعضلة الأساسية: كيف يمكن للنظام التمييز دائمًا بين سؤال أكاديمي مشروع وطلب خفي للحصول على معلومات خطيرة؟

الحرب الجديدة.. التلاعب النفسي بالذكاء الاصطناعي

مع تطور أنظمة الحماية، تحولت أساليب الاختراق من أوامر مباشرة إلى محادثات نفسية معقدة تعتمد على الإقناع والمراوغة والتملق والضغط التدريجي.

وبات منفذو هجمات كسر الحماية يستخدمون مهارات أقرب إلى علم النفس والاستجواب بدلًا من البرمجة التقليدية، في محاولة لدفع النماذج إلى خفض مستوى الحذر الأمني أثناء الحوار.

وأكد باحثون في Mindgard المتخصصة في اختبار أمان الذكاء الاصطناعي أنهم نجحوا في “التلاعب نفسيًا” بنموذج كلود للحصول على محتوى محظور، شمل تعليمات لصنع متفجرات وأكواد خبيثة.

لكل روبوت “شخصية” مختلفة

يرى خبراء أمن الذكاء الاصطناعي أن النماذج الحديثة أصبحت تُظهر أنماطًا مختلفة في الاستجابة، رغم أنها لا تمتلك مشاعر أو وعيًا حقيقيًا.

فروبوتات مثل جيميناي وغروك وشات جي بي تي وكلود تختلف في أسلوب الحوار ودرجة الرفض والاستجابة للضغوط اللغوية.

ولهذا بدأت بعض الشركات في بناء “ملفات نفسية” للنماذج الذكية، لمعرفة أيها يتأثر بالمجاملة، وأيها يستجيب أكثر للضغط أو التكرار أثناء المحادثة.

سباق مستمر بين الحماية والاختراق

مع تطور الذكاء الاصطناعي التوليدي، تتحول معركة الأمان الرقمي إلى سباق دائم بين مطوري الأنظمة والمهاجمين الذين يسعون لاكتشاف طرق جديدة للتحايل على القيود.

ويؤكد الخبراء أن مستقبل أمن الذكاء الاصطناعي لن يعتمد فقط على البرمجة والحماية التقنية، بل سيشمل أيضًا فهمًا أعمق للغة البشرية وأساليب التأثير النفسي التي يمكن استخدامها ضد النماذج الذكية.

 

شارك هذا الخبر
إبراهيم مصطفى
إبراهيم مصطفى
المقالات: 1284

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *