قدرات مذهلة ولكن غير مكتملة
أظهرت النماذج اللغوية الكبيرة (LLMs) مثل GPT-4 قدرات عالية في توليد النصوص وإجراء العمليات البرمجية، مستندةً إلى بنية “المحوّلات” التي تعتمد على توقع تسلسل الكلمات. ورغم هذه القدرات، أظهرت أبحاث حديثة أن هذه النماذج قد لا تتعلم بشكل كامل الحقائق الكامنة عن العالم، مما يجعل أدائها غير متوقع في مواقف حقيقية.
اختبار تنقل الذكاء الاصطناعي في نيويورك
أجريت دراسة بقيادة الباحث آشِش رامباتشان من معهد ماساتشوستس للتكنولوجيا لاختبار قدرة نموذج لغوي على التنقل في مدينة نيويورك. وأظهر النموذج دقة ملحوظة في التوجيه عبر شبكة الشوارع، لكنه تراجع عندما واجه تحديات مثل إغلاق الشوارع أو التحويلات. كشفت التحليلات عن أن النموذج يستخدم “خرائط” غير دقيقة تحتوي على شوارع وهمية، مما يثير تساؤلات حول مدى فعاليته في بيئات تتطلب دقة عالية.
قيود النماذج والتحديات العملية
تعد هذه القيود بمثابة تحدٍ هام، فحتى وإن أظهرت نماذج الذكاء الاصطناعي كفاءة في المهام المعقدة، فإن أدائها قد ينهار أمام تغييرات طفيفة في البيئة المحيطة. يحذر الباحثون من أن الاعتماد على هذه النماذج في مواقف حقيقية مثل التنقل قد يؤدي إلى فشل غير متوقع عند مواجهة عراقيل لم تُشمل في بيانات التدريب.
تقييم مدى “فهم” الذكاء الاصطناعي
لتقييم “فهم” النماذج للعالم، استخدم الباحثون مقاييس مثل “تمييز التسلسل” و”ضغط التسلسل”. تم اختبار هذه المقاييس في بيئات تتطلب قواعد محددة، مثل لعبة “أوثيللو”. وأظهرت النماذج التي دربت على بيانات عشوائية قدرة أكبر على تكوين نماذج داخلية دقيقة للعالم مقارنةً بتلك التي دربت على بيانات منظمة، مما يتيح لها التعرف على مجموعة أوسع من الاحتمالات.
حدود الذكاء الاصطناعي في البيئة المتغيرة
لم تستطع أي من النماذج تكوين نموذج منطقي متكامل للتنقل، حيث انخفضت دقتها بشكل كبير مع أي تغيير في شبكة الشوارع، حتى لو كان هذا التغيير بسيطًا. يرى الباحث كيون فافا أن التدريب على حركات عشوائية يساهم في تكوين فهم أعمق للبيئة المحيطة، ولكن يبقى هذا الفهم غير كافٍ للعمليات الحقيقية.
أبعاد البحث وتداعياته المستقبلية
تلقي الدراسة الضوء على تحديات الذكاء الاصطناعي، فبمجرد الاعتماد على هذه النماذج في مهام معقدة، قد يُفترض خطأً أنها تمتلك فهمًا عميقًا للعالم، وهو ما تبيّن الدراسة عدم صحته. يعمل الباحثون على توسيع الدراسة لتشمل سيناريوهات أكثر تعقيدًا، ويأملون في أن تساهم النتائج في تطوير أساليب جديدة للتدريب والتقييم لتعزيز موثوقية الذكاء الاصطناعي، خاصة في المجالات الحساسة مثل القيادة الذاتية والتخطيط اللوجستي.