نجح فريق من الباحثين والعلماء في جامعة الشارقة بالإمارات العربية المتحدة، في تطوير نظام ذكاء اصطناعي قادر على التمييز التلقائي بين اللهجات العربية المحكية بدقة عالية.
ونُشرت نتائج هذا البحث عبر منصة IEEE Xplore، بعدما تم تقديمه للمرة الأولى خلال المؤتمر السنوي الخامس عشر لأبحاث الطلبة الجامعيين في الحوسبة التطبيقية، الذي أُقيم في جامعة زايد خلال شهر أبريل الماضي.
وأشار الباحثون إلى التحديات الكبيرة التي واجهوها في عملية تعليم الحاسوب كيفية التمييز بين اللهجات العربية المختلفة، باستخدام تسجيلات صوتية فقط.
ويعود ذلك، وفق ما ذكره الموقع الإلكتروني لمجلة Mena Tech، إلى التنوع الكبير في اللهجات وتعقيدها، إلى جانب التحديات التقنية المتعلقة بمعالجة الأصوات وتحسين نماذج تعلم الآلة.
3000 ساعة صوتية
واعتمد الفريق البحثي على قاعدة بيانات تحتوي على أكثر من 3000 ساعة من المقاطع الصوتية التي جُمعت من موقع يوتيوب، والتي تغطي 19 لهجة من الدول العربية المختلفة.
وأظهرت النتائج دقة مبهرة، حيث حقق النظام معدلات تمييز صحيحة بلغت 97.29% في تحديد اللهجات الإقليمية، و94.92% في تحديد اللهجات حسب البلد، وذلك باستخدام 29% فقط من بيانات التدريب المعتادة في مثل هذه الدراسات.
ويُتوقع أن يساهم هذا النظام في تعزيز التواصل بين شعوب العالم العربي وبقية أنحاء العالم، إضافة إلى تطبيقات أخرى مثل تحسين أداء المساعدات الرقمية الشخصية، وأدوات الترجمة، وأنظمة الخدمة التلقائية للعملاء.
كما أعلن الباحثون عن إتاحة نماذج الذكاء الاصطناعي التي طوروها للجمهور، مما يسمح للباحثين والمطورين الآخرين بالاستفادة منها لتطوير تقنيات أكثر كفاءة.
ويعد النظام المذكور شبيها لنظام آخر مطور من قبل شركة IBM، التي أعلنت عنه في وقت سابق من العام الجاري، عبر تطوير نظام ذكاء اصطناعي في المملكة العربية السعودية قادر على التعامل مع عدة لهجات عربية.
وذكرت الهيئة السعودية للبيانات والذكاء الاصطناعي (SDAIA) في مايو الماضي أن نموذجها اللغوي العربي الكبير سيكون جزءًا من منصة watsonx للذكاء الاصطناعي والبيانات التابعة لشركة IBM.