اختبارات جديدة تكشف محدودية موثوقية الذكاء الاصطناعي: أفضل النماذج لا تتجاوز دقته 69%

معايير FACTS تقيس مدى الالتزام بالحقيقة

كشفت شركة جوجل ديب مايند عن مجموعة معايير جديدة تحمل اسم FACTS Benchmark Suite، تهدف إلى قياس موثوقية نماذج الذكاء الاصطناعي في تقديم إجابات دقيقة ومرتبطة بالواقع.

اختبارات متعددة لقدرات النماذج

تشمل المعايير أربعة مجالات رئيسية، هي:

الإجابة عن الأسئلة المعلوماتية اعتمادًا على المعرفة الداخلية للنموذج
استخدام البحث عبر الإنترنت بفعالية
دعم الإجابات بوثائق طويلة والتحقق من صحتها
تفسير الصور وفهم محتواها بدقة

جيميني 3 برو في الصدارة بدقة محدودة

حقق نموذج Gemini 3 Pro من جوجل أعلى نتيجة بين النماذج المختبرة، بدقة بلغت 69% فقط، فيما سجلت النماذج الرائدة الأخرى نسبًا أقل، وفقًا لتقرير نشره موقع بيزنس إنسايدر.

أداء لغوي قوي مقابل ضعف واقعي

رغم تفوق نماذج الذكاء الاصطناعي في السرعة والطلاقة اللغوية، فإن قدرتها على تقديم معلومات دقيقة وموثوقة لا تزال دون التوقعات البشرية، خاصة في المهام التي تتطلب معرفة متخصصة أو تفكيرًا معقدًا أو الاستناد إلى مصادر دقيقة.

مخاطر حقيقية في القطاعات الحساسة

تشكل الأخطاء الواقعية، حتى البسيطة منها، تهديدًا كبيرًا في مجالات مثل التمويل، والرعاية الصحية، والقانون، حيث قد تؤدي إلى قرارات خاطئة أو عواقب قانونية جسيمة.

أمثلة على العواقب العملية للأخطاء

أشار التقرير إلى واقعة فصل موظف بعد تقديم مستند قانوني احتوى على قضايا وهمية، تم إنشاؤها بواسطة ChatGPT عند استخدامه في إعداد الملف القانوني.

تحذير وخارطة طريق في آن واحد

تُعد معايير FACTS بمثابة تحذير واضح من الاعتماد المفرط على الذكاء الاصطناعي، وفي الوقت نفسه تمثل دليلًا إرشاديًا لتحسين النماذج عبر تحديد نقاط القصور وتسريع تطويرها.

الخلاصة

رغم التقدم المستمر، لا يزال الذكاء الاصطناعي يخطئ في نحو ثلث الحالات، ما يؤكد أنه أداة مساعدة قوية، لكنها غير مؤهلة بعد لتحل محل الحكم البشري الكامل.

اترك ردّاً

اختبارات جديدة تكشف محدودية موثوقية الذكاء الاصطناعي: أفضل النماذج لا تتجاوز دقته 69%

معايير FACTS تقيس مدى الالتزام بالحقيقة

اختبارات متعددة لقدرات النماذج

جيميني 3 برو في الصدارة بدقة محدودة

أداء لغوي قوي مقابل ضعف واقعي

مخاطر حقيقية في القطاعات الحساسة

أمثلة على العواقب العملية للأخطاء

تحذير وخارطة طريق في آن واحد

الخلاصة

يوسف إبراهيم

اترك ردّاًإلغاء الرد

قمة الويب 2026: الصوت يصبح واجهة الذكاء الاصطناعي ال...

جامعة جنيف تطوّر خوارزمية ذكاء اصطناعي للتنبؤ بخطر ا...

قمة الويب في الدوحة: الإنسان والشريك الذكي – ماذا يف...

إنفيديا تقترب من استثمار 20 مليار دولار في Open AI ض...

إندونيسيا تسمح بعودة “جروك” تحت إشراف صارم

معايير FACTS تقيس مدى الالتزام بالحقيقة

اختبارات متعددة لقدرات النماذج

جيميني 3 برو في الصدارة بدقة محدودة

أداء لغوي قوي مقابل ضعف واقعي

مخاطر حقيقية في القطاعات الحساسة

أمثلة على العواقب العملية للأخطاء

تحذير وخارطة طريق في آن واحد

الخلاصة

يوسف إبراهيم

اترك ردّاًإلغاء الرد

مقالات مشابهة