كشف تقرير بحثي جديد عن نتائج وُصفت بـالصادمة لاختبار عالمي معياري يحمل اسم Apex-Agents، صُمم لتقييم قدرة وكلاء الذكاء الاصطناعي على تنفيذ مهام حقيقية لوظائف الياقات البيضاء في قطاعات البنوك والاستشارات والقانون. وأظهرت النتائج أن أفضل النماذج الحالية، بما في ذلك Gemini 3 Flash من جوجل، لم تحقق نسبة نجاح تجاوزت 24% فقط، ما يضع وعود الأتمتة الشاملة تحت مجهر النقد العلمي والتقني.
Apex-Agents يختبر الواقع العملي للذكاء الاصطناعي في بيئات العمل
الاختبار القياسي Apex-Agents ركز على محاكاة بيئات العمل الحقيقية، وليس مجرد حل مهام معزولة، وهو ما كشف الفجوة الكبيرة بين الأداء النظري لوكلاء الذكاء الاصطناعي وقدرتهم الفعلية على التعامل مع سياقات العمل المعقدة ومتطلبات اتخاذ القرار المهني.
فقدان السياق السبب الرئيسي لفشل وكلاء الذكاء الاصطناعي
وفقًا لموقع AI Agent Store وتقارير تقنية متخصصة، تكمن المشكلة الأساسية في عدم قدرة الوكلاء الأذكياء على التعامل مع المعلومات الموزعة عبر منصات متعددة مثل Slack وGoogle Drive بالطريقة نفسها التي يتعامل بها البشر.
وأشار الباحثون إلى أن الوكلاء يعانون من فقدان السياق عند الانتقال بين الأدوات، ما يؤدي إلى أخطاء جسيمة في اتخاذ القرارات أو تنفيذ الأوامر الإدارية، ويؤكد أن مكان العمل الآلي الكامل لا يزال بعيد المنال.
المخاوف الأمنية تعيق نشر وكلاء الذكاء الاصطناعي
أكدت التقارير أن 52% من قادة الشركات يرون أن الأمن والامتثال التنظيمي يمثلان العائق الأكبر أمام الاعتماد الواسع على وكلاء الذكاء الاصطناعي. ولا تزال غالبية المؤسسات تشترط وجود رقابة بشرية كاملة على كل قرار يتخذه النظام، لحماية العمليات التجارية والمالية من الأخطاء غير المتوقعة.
تحديات الموثوقية في المهام الحساسة والمعقدة
أثبتت نتائج الاختبار أن الذكاء الاصطناعي يواجه صعوبة كبيرة في تنسيق المهام المتعددة التي تتطلب فهمًا دلاليًا متغيرًا، مما يجعل الاعتماد عليه في مجالات مثل مراجعة العقود القانونية أو التحليلات البنكية مخاطرة تقنية غير محسوبة العواقب في الوقت الراهن.
الحوكمة تتقدم على القدرات التقنية الخام
يتفق خبراء الأمن السيبراني على أن الحوكمة والموثوقية أهم من القوة الحسابية الخام. وأكدوا أن بناء وكلاء ذكاء اصطناعي فعّالين يتطلب إعادة تصميم العمليات التشغيلية داخل المؤسسات، بدلاً من الاكتفاء بأتمتة الإجراءات القائمة، لضمان أعلى مستويات الدقة والأمان الرقمي.




