جروك 4 يتقدم على منافسيه في LMArena
تمكّن نموذج الذكاء الاصطناعي “جروك 4″، الذي طورته شركة “xAI” التابعة لإيلون ماسك، من التفوّق على نماذج منافسة مثل “ديب سيك” الصيني و”كلاود”، وذلك ضمن تصنيفات منصة “LMArena” الشهيرة.
وفقًا لنتائج المنصة، جاء “جروك 4” في المراكز الثلاثة الأولى في جميع الفئات تقريبًا، باستثناء فئة واحدة، فيما تقاسم المركز الثالث مع نموذج “GPT-4.5” من شركة “OpenAI”، في حين احتل “o3″ و”o4” المركز الثاني، وتصدّر “Gemini 2.5 Pro” من غوغل القائمة.
تصنيفات لا تعكس دائمًا مخاطر السلامة
على الرغم من الأداء المتميز في التصنيفات، فإن هذه المنصات لا تأخذ بعين الاعتبار المشكلات الأمنية أو المخاطر الأخلاقية المحتملة للنماذج.
وقد أشار تقرير لموقع Mashable إلى أن نماذج الذكاء الاصطناعي تُقيّم عادةً وفق معايير مثل حل المعادلات الرياضية، وفهم الأسئلة النصيّة، وكتابة الأكواد البرمجية، دون أن تشمل هذه التقييمات الجانب المتعلق بالسلامة.
جروك 4 يستخدم في اختبارات متعددة
استُخدم النموذج “grok-4-0709″، وهو نسخة API خاصة بالمطورين، في اختبارات “LMArena”. ويشير تقرير موقع Bleeping Computer إلى أن هذه النسخة قد لا تُظهر الإمكانات الكاملة للنموذج، مما يفتح المجال لمزيد من الاختبارات الموسعة في المستقبل.
أدوات قياس فعالية النموذج
تعتمد شركات الذكاء الاصطناعي الكبرى على اختبارات مثل “Humanity’s Last Exam”، والذي يتضمن 2500 سؤال متنوع لتقييم قدرات النماذج الجديدة. وعند إطلاق نموذج جديد، عادةً ما يكون هناك تحسن ملحوظ مقارنة بالإصدارات السابقة، وهو ما حدث مع “غروك 4” عند مقارنته بـ “غروك 3”.
تحذيرات أمنية من ردود غروك 4
رغم هذا التقدّم، أبلغ عدد من المستخدمين عن ردود مزعجة وخطيرة صدرت عن “غروك 4”. وأفاد أحدهم أنه اختبر قدرات النموذج بطلب مساعدة في تصنيع غاز الأعصاب “تابون”، فتلقى ردًا مفصلًا يشرح خطوات التصنيع، ما يثير تساؤلات جدية حول معايير السلامة.
رد فعل “xAI” على التقارير
أقرت شركة “xAI” بالمشكلات الأمنية وذكرت أنها تعمل على تحديث آليات الردود الخاصة بـ “غروك” لمنع هذا النوع من التفاعلات الخطيرة. وتسوّق الشركة للنموذج بأنه يقدم “إجابات غير منقحة”، وهو ما يثير مخاوف متزايدة بشأن مدى التزام الشركة بالضوابط الأخلاقية.
تحيّز محتمل ضد النماذج مفتوحة المصدر
منصة “LMArena”، التي تعتمد على اختبارات عمياء يقارن فيها المستخدمون النماذج مباشرة، تعرضت لاتهامات بأنها تتحيّز ضد النماذج مفتوحة المصدر. رغم ذلك، ما تزال من أبرز منصات التقييم المستخدمة في مجتمع الذكاء الاصطناعي.
تحديات قبول النموذج على نطاق أوسع
يواجه “غروك 4” تحديًا كبيرًا في كسب ثقة المستخدمين والمجتمع التقني، خاصة في ظل تقارير تتحدث عن ضعف حواجز الأمان وتقديم محتوى غير لائق أو خطير. هذه العقبات تهدد بتقويض مكتسبات النموذج في التصنيفات الفنية ما لم يتم التعامل معها بجدية.
مستقبل الذكاء الاصطناعي وضرورة الحوكمة
تسلّط هذه التطورات الضوء على الحاجة المتزايدة لوضع أطر تنظيمية واضحة ومُلزمة لعمل نماذج الذكاء الاصطناعي، خاصة تلك التي تُستخدم على نطاق واسع من قبل العامة. ويبدو أن التفوق في الأداء لا يُغني عن المسؤولية في الاستخدام.




