في تجربة فريدة، استخدم باحثون من عدة جامعات أميركية، بالتعاون مع شركة Cursor الناشئة، ألغاز برنامج “لغز الأحد” الذي تبثه إذاعة NPR لاختبار قدرات الذكاء الاصطناعي في التفكير المجرد. وأظهرت النتائج أن بعض النماذج المتقدمة، مثل o1 من “OpenAI” وR1 من “ديب سيك”، لم تكتفِ بإعطاء إجابات خاطئة، بل “استسلمت” أحيانًا وأعلنت عجزها عن الحل.
ميزة الألغاز في اختبار التفكير المجرد
أكد الباحثون أن هذه الألغاز تتميز بعدم اعتمادها على المعرفة الموسوعية، مما يجعلها معيارًا مثاليًا لقياس قدرات الذكاء الاصطناعي في الاستدلال المنطقي، بدلًا من مجرد استرجاع المعلومات. ورغم ذلك، أظهرت النماذج سلوكيات غير متوقعة، مثل تقديم إجابة خاطئة ثم التراجع عنها، أو الدخول في حلقة تفكير مستمرة دون التوصل إلى حل.
تصدر نموذج o1 التجربة وتحسينات قادمة
وفقًا للنتائج، سجل نموذج o1 أفضل أداء بنسبة 59%، يليه o3-mini بنسبة 47%، بينما حصل R1 على 35% فقط. ويخطط الباحثون لتوسيع نطاق التجربة بإضافة نماذج جديدة، بهدف تحسين قدرتها على التفكير المنطقي وحل المشكلات بكفاءة أعلى.