الدراسة تفحص 445 اختبارًا رئيسيًا للذكاء الاصطناعي
كشف باحثون في دراسة حديثة أن الأساليب المستخدمة لتقييم أداء نماذج الذكاء الاصطناعي غالبًا ما تبالغ في تقدير قدراتها وتفتقر إلى الدقة العلمية.
الدراسة، التي قادها معهد أكسفورد للإنترنت بالتعاون مع أكثر من 30 مؤسسة بحثية، فحصت 445 اختبارًا بارزًا تُعرف باسم معايير الأداء المرجعية، وتُستخدم عادة لقياس أداء النماذج في مجالات متعددة.
المشكلات الأساسية في اختبارات الأداء
تشير النتائج إلى أن هذه الاختبارات غالبًا لا تقيس ما يُفترض أن تقيسه، حيث تُعاد استخدام بيانات وطرق اختبار قديمة، ونادرًا ما تعتمد أساليب إحصائية دقيقة للمقارنة بين النماذج.
وصرح آدم مهدي، الباحث في معهد أكسفورد، بأن هذه المعايير قد تكون مضللة: “عندما نطلب من النماذج أداء مهام محددة، غالبًا ما نقيس في الواقع مفاهيم مختلفة تمامًا عما نريد قياسه”.
ثغرات في قياس القدرات الحقيقية
أوضحت الدراسة أن نصف معايير الأداء التي فُحصت لم تحدد المفاهيم التي تهدف لقياسها بشكل واضح، ما يضع مصداقيتها موضع شك.
وتشمل بعض المعايير اختبارات محددة مثل مهارات اللغة الروسية أو العربية، بينما تقيس معايير أخرى قدرات عامة مثل التفكير المكاني والتعلم المستمر، لكن طرق القياس غالبًا ما لا تعكس الواقع الفعلي لهذه القدرات.
توصيات لتحسين المعايير
قدّم الباحثون ثماني توصيات لتحسين الشفافية والدقة في اختبارات الذكاء الاصطناعي، أبرزها:
- تحديد نطاق القدرات المقاسة بدقة.
- بناء مجموعات مهام تمثل القدرات الإجمالية بشكل أفضل.
- مقارنة أداء النماذج باستخدام التحليل الإحصائي العلمي.
السياق العلمي الأوسع
تعكس هذه الدراسة أبحاثًا سابقة أظهرت وجود عيوب في معايير الأداء المرجعية للذكاء الاصطناعي. ففي العام الماضي، دعا باحثون من شركة “Anthropic” إلى زيادة استخدام الاختبارات الإحصائية لتحديد ما إذا كان أداء النماذج يُظهر فرقًا حقيقيًا في القدرات أم مجرد نتائج محظوظة.




