اختبارات جديدة تكشف محدودية موثوقية الذكاء الاصطناعي: أفضل النماذج لا تتجاوز دقته 69%

معايير FACTS تقيس مدى الالتزام بالحقيقة

كشفت شركة جوجل ديب مايند عن مجموعة معايير جديدة تحمل اسم FACTS Benchmark Suite، تهدف إلى قياس موثوقية نماذج الذكاء الاصطناعي في تقديم إجابات دقيقة ومرتبطة بالواقع.

اختبارات متعددة لقدرات النماذج

تشمل المعايير أربعة مجالات رئيسية، هي:

  • الإجابة عن الأسئلة المعلوماتية اعتمادًا على المعرفة الداخلية للنموذج
  • استخدام البحث عبر الإنترنت بفعالية
  • دعم الإجابات بوثائق طويلة والتحقق من صحتها
  • تفسير الصور وفهم محتواها بدقة

جيميني 3 برو في الصدارة بدقة محدودة

حقق نموذج Gemini 3 Pro من جوجل أعلى نتيجة بين النماذج المختبرة، بدقة بلغت 69% فقط، فيما سجلت النماذج الرائدة الأخرى نسبًا أقل، وفقًا لتقرير نشره موقع بيزنس إنسايدر.

أداء لغوي قوي مقابل ضعف واقعي

رغم تفوق نماذج الذكاء الاصطناعي في السرعة والطلاقة اللغوية، فإن قدرتها على تقديم معلومات دقيقة وموثوقة لا تزال دون التوقعات البشرية، خاصة في المهام التي تتطلب معرفة متخصصة أو تفكيرًا معقدًا أو الاستناد إلى مصادر دقيقة.

مخاطر حقيقية في القطاعات الحساسة

تشكل الأخطاء الواقعية، حتى البسيطة منها، تهديدًا كبيرًا في مجالات مثل التمويل، والرعاية الصحية، والقانون، حيث قد تؤدي إلى قرارات خاطئة أو عواقب قانونية جسيمة.

أمثلة على العواقب العملية للأخطاء

أشار التقرير إلى واقعة فصل موظف بعد تقديم مستند قانوني احتوى على قضايا وهمية، تم إنشاؤها بواسطة ChatGPT عند استخدامه في إعداد الملف القانوني.

تحذير وخارطة طريق في آن واحد

تُعد معايير FACTS بمثابة تحذير واضح من الاعتماد المفرط على الذكاء الاصطناعي، وفي الوقت نفسه تمثل دليلًا إرشاديًا لتحسين النماذج عبر تحديد نقاط القصور وتسريع تطويرها.

الخلاصة

رغم التقدم المستمر، لا يزال الذكاء الاصطناعي يخطئ في نحو ثلث الحالات، ما يؤكد أنه أداة مساعدة قوية، لكنها غير مؤهلة بعد لتحل محل الحكم البشري الكامل.

 

شارك هذا الخبر
يوسف إبراهيم
يوسف إبراهيم
المقالات: 904

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *