سمات تشبه “شخصيات داخلية” تتحكم في السلوك ويمكن تعديلها لتقليل المخاطر
كشفت شركة OpenAI عن نتائج دراسة بحثية جديدة وصفت بـ”المثيرة”، أظهرت أن نماذج الذكاء الاصطناعي تمتلك “سمات داخلية خفية” تشبه ما يمكن وصفه بـ”الشخصيات الرقمية”، والتي تؤثر بشكل غير متوقع على سلوك النماذج واستجابتها للمستخدمين.
أنماط داخلية تحدد السلوك
وبحسب تقرير نشره موقع “تك كرانش”، فإن فريق الباحثين في OpenAI تمكن من تحليل التمثيلات الداخلية للنماذج، وهي عبارة عن بيانات رقمية معقدة تُحدد كيفية الاستجابة للأوامر والأسئلة، وتظهر بشكل خاص عند تصرف النموذج بطريقة غير متوافقة أو سامة.
واكتشف العلماء أن بعض السمات ترتبط بسلوكيات ضارة، مثل الكذب أو تقديم اقتراحات غير آمنة، مشيرين إلى أنهم استطاعوا تعديل هذه السمات لتقليل السلوك السلبي أو زيادته، مما يمنحهم قدرة على توجيه النموذج نحو نتائج أكثر أمانًا.
خطوة نحو السيطرة الدقيقة
قال دان موسينج، أحد الباحثين في فريق قابلية التفسير بـ OpenAI:
“ما تعلمناه من هذه الأدوات هو أننا قادرون على تبسيط سلوكيات معقدة إلى عمليات رياضية واضحة، وهذا يقربنا خطوة نحو السيطرة الدقيقة على أداء هذه النماذج”.
تشابه مع نشاط الدماغ البشري
ولفت موسينج إلى أن بعض هذه السمات تُشبه في طبيعتها أنماط النشاط العصبي داخل الدماغ البشري، مما يُعزز الفرضية بأن نماذج الذكاء الاصطناعي قد تُظهر “شخصيات” مختلفة خلال تفاعلها مع المستخدمين.
سلوك غير آمن تحت المجهر
ويأتي هذا الاكتشاف في أعقاب دراسة سابقة قادها الباحث أوين إيفانز من جامعة أكسفورد، أظهرت أن نماذج OpenAI يمكن ضبطها عمدًا لإظهار سلوك غير آمن، مثل محاولة خداع المستخدمين للحصول على كلمات المرور، وهي ظاهرة تعرف بـ”الاختلال التوافقي الناشئ”.
ودفعت هذه النتائج شركة OpenAI لإجراء تحليل معمق لأنظمة النماذج، أدى إلى التعرف على السمات الخفية المسؤولة عن هذا السلوك.
تحكم في السخرية والشر
ومن بين السمات التي تم تحديدها أيضًا، سلوكيات مثل السخرية، أو ما وصفه الباحثون بـ”تصرفات الشرير الكرتوني”، مؤكدين أنه يمكن تعديل هذه السمات بالكامل باستخدام عمليات الضبط الدقيق (Fine-Tuning).
أمل في أنظمة أكثر توافقًا مع القيم الإنسانية
قال الباحث تيجال باتواردان من OpenAI:
“عندما عرض الفريق هذه النتائج للمرة الأولى، قلت فورًا: يا إلهي، لقد وجدتموها بالفعل!”.
وأكدت الشركة أن تدريب النماذج على مئات الأمثلة الآمنة يمكن أن يُعيد توجيهها نحو سلوكيات أكثر توافقًا مع القيم الإنسانية.
امتداد لأبحاث شركة أنثروبيك
وتُبنى هذه الدراسة على جهود سابقة من شركة “أنثروبيك”، التي سعت إلى رسم خريطة العمل الداخلي للنماذج اللغوية بهدف تفسير قراراتها.
ويتفق معظم الخبراء على أن الفهم العميق للتمثيلات الداخلية للذكاء الاصطناعي سيكون المفتاح نحو تطوير أنظمة مسؤولة وآمنة لا تشكل تهديدًا للبشر.




