أزمة الإمداد بالبيانات في شركات التقنية
في نهاية عام 2021، واجهت شركة أوبن إيه آي أزمة في الإمداد بالبيانات أثناء تدريب نماذجها للذكاء الاصطناعي. استهلكت الشركة كل مخزون النصوص الإنجليزية الموثوقة على الإنترنت أثناء تطوير أحدث أنظمتها، وكانت بحاجة إلى المزيد من البيانات الجيدة لتدريب النسخة التالية من نظامها. لمواجهة هذه الأزمة، ابتكر باحثو الشركة أداة للتعرف على الكلام تُسمى “ويسبر” (Whisper)، التي يمكنها نسخ الأصوات من مقاطع فيديو يوتيوب، مما يوفر نصوص محادثة جديدة لتحسين نظام الذكاء الاصطناعي.
مطاردات يائسة للوصول إلى البيانات
تحول السباق نحو ريادة مجال الذكاء الاصطناعي التوليدي إلى مطاردات يائسة للحصول على أكبر قدر من البيانات الرقمية. اختصرت شركات التقنية مثل أوبن إيه آي وغوغل وميتا، كل السبل وتجاهلت سياسات الشركات، بل وحتى تجاوزت القانون، لجمع البيانات اللازمة لتطوير تقنيات الذكاء الاصطناعي. على سبيل المثال، قامت ميتا بجمع البيانات المحمية بحقوق الطبع والنشر عبر الإنترنت، رغم أنها قد تواجه دعاوى قضائية، لأن التفاوض للحصول على تراخيص استخدام المحتوى كان سيستغرق مدة طويلة.
أهمية البيانات لشركات الذكاء الاصطناعي
أصبحت البيانات على الإنترنت، من أخبار ومؤلفات روائية ومنشورات على وسائل التواصل الاجتماعي ومقالات ويكيبيديا والصور ومقاطع الفيديو والبودكاست والأفلام، شريان الحياة لصناعة الذكاء الاصطناعي. يعتمد تطوير أنظمة قوية وتنافسية على وجود ما يكفي من البيانات لتعليم النماذج كيفية إنتاج نصوص وصور وأصوات ومقاطع فيديو تشبه ما ينتجه الإنسان. تعلمت روبوتات المحادثة الرائدة، مثل “شات جي بي تي”، من مجموعات هائلة من النصوص الرقمية التي تصل إلى 3 تريليونات كلمة، مما يساعدها في تحسين أدائها.
تحديات البيانات في المستقبل
يشير معهد “إيبوك” للأبحاث إلى أن شركات التقنية قد تستنفد البيانات ذات الجودة العالية على شبكة الإنترنت بحلول عام 2026. تستهلك هذه الشركات البيانات بوتيرة أسرع مما يجري إنتاجها عالميًا. تواجه شركات مثل غوغل وميتا قيودًا قانونية وسياسات خصوصية تمنعها من الاعتماد على كثير من المحتوى الذي تنتجه منصاتها لتدريب نماذج الذكاء الاصطناعي.
البيانات الاصطناعية كحل محتمل
للتغلب على نقص البيانات، بدأت شركات التقنية في تطوير البيانات “الاصطناعية”، وهي نصوص وصور وأكواد برمجية تنتجها نماذج الذكاء الاصطناعي نفسها. ذكرت شركة أوبن إيه آي أن كل نموذج من نماذجها يمتلك مجموعة بيانات فريدة تنظمها الشركة لمساعدة النموذج على فهم العالم.
تحديات البيانات الاصطناعية
رغم النظريات الواعدة حول استخدام البيانات الاصطناعية، فإن تدريب النماذج على نصوص تنتجها الذكاء الاصطناعي ليس سهلاً كما يبدو. قد تقع النماذج التي تتعلم من نتائجها الخاصة في دائرة مفرغة، مما يعزز من عيوبها وأخطائها. تبحث شركات مثل أوبن إيه آي في كيفية عمل نموذجين مختلفين للذكاء الاصطناعي معًا لتوليد بيانات اصطناعية مفيدة وموثوقة. ينتج أحد النظامين البيانات، بينما يتولى النظام الآخر تقييمها. لكن حتى هذا الحل يواجه تحديات، ولم يتفق الباحثون بعد على مدى إمكانية نجاحه.