تقرير صادم يكشف عن مشاكل متزايدة في “o3″ و”o4-mini” رغم تفوقها في البرمجة والرياضيات
كشفت تقارير تقنية حديثة عن مفاجأة غير متوقعة بشأن نماذج الذكاء الاصطناعي الأحدث من OpenAI، وتحديدًا “o3” و”o4-mini”، حيث أظهرت هذه النماذج معدلات هلوسة أعلى من النماذج السابقة، رغم تطورها الكبير في العديد من الجوانب.
وبحسب تقرير نشره موقع “TechCrunch”، واطلعت عليه “العربية Business”، فإن نماذج التفكير الجديدة التي طورتها OpenAI، وعلى عكس المتوقع، تُقدم معلومات مختلقة بمعدلات أعلى من النماذج الأقدم مثل “o1” و”o3-mini”، وحتى النماذج غير المخصصة للتفكير مثل “GPT-4o”.
33% من إجابات “o3″ مهلوسة.. و”o4-mini” يصل إلى 48%
وفقًا لاختبارات داخلية أجرتها OpenAI، سجل نموذج “o3” معدل هلوسة بلغ 33% في اختبار “PersonQA”، الذي يُستخدم لقياس دقة معرفة النموذج بالمعلومات المتعلقة بالأشخاص. بينما سجل “o4-mini” معدلًا مقلقًا بلغ 48%، وهو ما يعادل أكثر من ضعف ما سجلته نماذج التفكير الأقدم مثل “o1″ (16%) و”o3-mini” (14.8%).
هلوسات في خطوات التفكير أيضًا
ولم تقتصر هذه الظاهرة على النتائج فقط، بل أشارت اختبارات مستقلة أجرتها مؤسسة Transluce غير الربحية إلى أن نموذج “o3” يميل إلى اختلاق خطوات منطقية غير صحيحة عند شرح طريقته في الوصول إلى الإجابات، مما يُعقّد من مهمة التحقق من صحة مخرجاته.
OpenAI تعترف: لا نعرف السبب بعد
ما يزيد الأمر غموضًا، أن OpenAI نفسها لا تعرف سبب هذا التدهور، حيث ذكرت في تقريرها الفني الخاص بالنموذجين أن هناك “حاجة إلى مزيد من البحث” لفهم سبب تفاقم الهلوسة مع توسعة حجم نماذج التفكير.
ويُعتقد أن أحد الأسباب المحتملة هو أن نماذج التفكير تميل إلى تقديم ادعاءات أكثر عمومًا، وهو ما يجعلها معرضة أكثر للخطأ في المعلومات الدقيقة.
نقطة قوة وضعف في آن واحد
رغم هذه الملاحظات السلبية، فإن نماذج “o3″ و”o4-mini” أظهرت أداءً قويًا في مجالات محددة مثل البرمجة والرياضيات، مما يشير إلى أن نماذج التفكير تملك إمكانات كبيرة، لكن في الوقت ذاته تحتاج إلى مزيد من الضبط والتحكم لتقليل الهلوسة.
التفكير ميزة.. لكن بثمن
في السنوات الأخيرة، تحوّلت صناعة الذكاء الاصطناعي إلى التركيز على نماذج التفكير بدلًا من الاعتماد الكامل على القوة الحوسبية والبيانات الضخمة. وتُساعد هذه النماذج على تحسين دقة النتائج في عدد من المهام المعقدة، لكن يبدو أن “التفكير” يحمل معه خطرًا خفيًا يتمثل في زيادة معدلات الهلوسة.
هل تؤثر هذه النتائج على مستقبل نماذج “OpenAI”؟
السؤال يبقى مفتوحًا، لكن المؤكد أن البحث عن حل جذري لمشكلة الهلوسة بات أكثر إلحاحًا من أي وقت مضى.