اتهامات جديدة تطال "ديب سيك" الصينية بتدريب نموذجها R1 على بيانات "جيميني" من غوغل

نسخة محدثة من R1 تثير الشبهات

أطلق مختبر الذكاء الاصطناعي الصيني “ديب سيك” نسخةً محدثة من نموذج R1، الذي أظهر أداءً قويًا في اختبارات الرياضيات والبرمجة. إلا أن أداءه اللافت أثار شكوك بعض الباحثين حول مصدر البيانات المستخدمة في تدريبه.

مطورون يرجحون استخدام مخرجات “جيميني”

سام بايتش، مطور مقيم في ملبورن، نشر تقييمًا يشير إلى تشابه أسلوب النموذج R1-0528 من “ديب سيك” مع نموذج “جيميني 2.5 برو” التابع لغوغل. واعتبر أن تعابير النموذج واختياراته اللغوية تُرجّح تدريبه على مخرجات “جيميني”.

اتهامات سابقة بالتدريب على بيانات “شات جي بي تي”

ليست هذه المرة الأولى التي تُتهم فيها “ديب سيك” باستخدام بيانات من نماذج منافسة. ففي ديسمبر الماضي، لوحظ أن نموذج V3 الخاص بها يعرّف نفسه في بعض الأحيان بأنه “شات جي بي تي”، ما أثار تكهنات بتدريبه على سجلات دردشة مأخوذة من نموذج OpenAI الشهير.

تقنيات “التقطير” تثير الجدل مجددًا

سبق أن أفادت شركة OpenAI لصحيفة “فاينانشال تايمز” بأنها رصدت أدلة على استخدام “ديب سيك” لتقنية “التقطير”، وهي تقنية تعتمد على استخراج البيانات من نماذج أكبر وأكثر تطورًا لبناء نماذج جديدة.

وبحسب تقرير لـ”بلومبرغ”، فإن “مايكروسوفت” – الشريك الرئيسي لـ OpenAI – اكتشفت تسريب كميات ضخمة من البيانات من حسابات مطورين تعود إلى “OpenAI” في أواخر 2024، ويُرجح أنها استُخدمت من قبل “ديب سيك”.

“تلوث الذكاء الاصطناعي” يعقّد التتبع

يشير خبراء إلى أن تشابه تعبيرات النماذج ليس دليلاً حاسمًا، نظرًا لتفاقم مشكلة ما يُعرف بـ”تلوث الذكاء الاصطناعي”. إذ أصبحت الإنترنت مشبعة بمحتوى مولّد آليًا، مما يصعّب التمييز بين النصوص البشرية والمصطنعة في بيانات التدريب.

احترازات جديدة من OpenAI وغوغل وأنثروبيك

لمواجهة هذا التحدي، فرضت OpenAI إجراءات تحقق جديدة على المؤسسات، تتطلب إثبات هوية من دول مدعومة – وهو ما تستثنى منه الصين حاليًا.

في المقابل، اتخذت غوغل وأنثروبيك إجراءات وقائية، منها تلخيص آثار النماذج المتاحة عبر منصات التطوير، لمنع تحليل آثار الذكاء الاصطناعي واستخدامها في تدريب نماذج منافسة.

ديب سيك: موارد مالية قوية، وقدرات محدودة على الحوسبة

يرى الباحث في معهد AI2 ناثان لامبرت أن لجوء “ديب سيك” لتوليد بيانات اصطناعية من نماذج قوية مثل “جيميني” قد يكون خيارًا منطقيًا، نظرًا لامتلاكها موارد مالية كبيرة مقابل محدودية الوصول إلى وحدات المعالجة المتقدمة (GPU).

خاتمة: مسار تنافسي محفوف بالتحديات القانونية والأخلاقية

في ظل المنافسة الشديدة بين كبرى شركات الذكاء الاصطناعي، تزداد أهمية الشفافية في مصادر البيانات وآليات التدريب. ومع تصاعد الاتهامات، تظل “ديب سيك” تحت المجهر الدولي، بانتظار رد رسمي منها على هذه المزاعم.

اتهامات جديدة تطال “ديب سيك” الصينية بتدريب نموذجها R1 على بيانات “جيميني” من غوغل

إبراهيم شعبان

اترك ردّاًإلغاء الرد

معركة العقول الاصطناعية: تشات جي بي تي أم كلود.. أيه...

ألتمان: الذكاء الاصطناعي سيتحول إلى خدمة أساسية تُبا...

“ميتا” تدرس تسريح نحو 20% من موظفيها لمو...

جاك ذو الوجوه المتعددة: ذكاء اصطناعي يكشف السائقين ا...

أوبن إيه آي تخطط لدمج “سورا” لإنشاء الفي...

إبراهيم شعبان

اترك ردّاًإلغاء الرد

مقالات مشابهة