في دراسة حديثة، تعاون فريق من الباحثين من جامعات متعددة وشركات تقنية، بما في ذلك كلية ويلسلي و جامعة نورث إيسترن، بالإضافة إلى شركة Cursor الناشئة، لاختبار قدرات الذكاء الاصطناعي على الاستدلال باستخدام ألغاز برنامج “لغز الأحد” من محطة الراديو NPR. يُعرف هذا البرنامج بصعوبة ألغازها، التي رغم تعقيدها، لا تتطلب معرفة متخصصة، مما يجعلها أداة مثالية لاختبار قدرة النماذج على التفكير المنطقي.
معايير جديدة لاختبار النماذج الذكية
قام الباحثون بتطوير معيار جديد يعتمد على 600 لغز من البرنامج لاختبار نماذج الذكاء الاصطناعي، بهدف تقييم قدرتها على حل المشكلات باستخدام المعرفة العامة فقط. أظهرت الدراسة أن نماذج مثل o1 من OpenAI وR1 من ديب سيك تفوقت على غيرها في حل هذه الألغاز.
نتائج الدراسة: تحديات واختلافات في الأداء
رغم النجاح الذي حققته بعض النماذج، كشفت الدراسة أيضًا عن وجود مشكلات تتعلق ببعض النماذج التي كانت تقدم إجابات خاطئة رغم معرفتها بذلك. وبعض النماذج أظهرت سلوكًا بشريًا غريبًا، مثل الاستسلام أو الإحباط عندما لا تستطيع حل اللغز.
أرجون جوها، أحد الباحثين في الدراسة، أشار إلى أن الألغاز صُممت لتكون تحديًا حتى للبشر، وهو ما يجعلها أداة قوية لاختبار الذكاء الاصطناعي. وأوضح أن النماذج مثل o1 تتفوق لأنها تتحقق من صحة إجاباتها قبل تقديمها، وهو ما يقلل من الأخطاء، رغم أنها تأخذ وقتًا أطول في الوصول إلى الحل.
سلوكيات غريبة للنماذج
من الملاحظات المثيرة التي كشفتها الدراسة، أن بعض النماذج تراجع إجاباتها بعد تقديمها، في حين استمر بعضها في التفكير لفترات طويلة دون الوصول إلى نتيجة. كما أن بعض النماذج عبرت عن شعورها بالعجز في حالات معينة، وهي سلوكيات تُشبه الإحباط البشري.
نتائج واعدة
حقق النموذج o1 أفضل أداء بنسبة 59% في حل الألغاز، يليه النموذج o3-mini بنسبة 47%، أما النموذج R1 فقد حصل على 35%. الباحثون يخططون لتوسيع الدراسة لتشمل نماذج استدلال إضافية بهدف تحسين قدرة النماذج على معالجة مثل هذه الألغاز.
جوها أضاف أن الذكاء الاصطناعي يمكن تحسينه لتطوير معايير تفكير لا تتطلب معرفة متخصصة، مما يفتح المجال لمجموعة أكبر من الباحثين لتحليل النتائج والوصول إلى حلول أفضل في المستقبل.
تطور الذكاء الاصطناعي
هذه الدراسة تمثل خطوة هامة في فهم قدرات الذكاء الاصطناعي وتحديد مجالات تطويره المستقبلية، كما أنها تسلط الضوء على التحديات التي يواجهها الذكاء الاصطناعي في معالجة المهام المعقدة باستخدام الاستدلال والمعرفة العامة.