أعلنت مؤسسة ويكيبيديا ألمانيا عن إطلاق مشروع مبتكر باسم “مشروع تضمين بيانات ويكي”، بالتعاون مع شركتي داتا ستاكس وجينا، يهدف إلى إتاحة البيانات الضخمة المتوفرة على ويكيبيديا ومواقعها الشقيقة – والتي تصل إلى نحو 120 مليون إدخال – بطريقة أكثر سهولة لاستخدامها في تدريب وتشغيل نماذج الذكاء الاصطناعي.
بحث دلالي أكثر ذكاءً
المشروع يعتمد على تقنية البحث الدلالي القائم على المتجهات، مما يساعد أنظمة الذكاء الاصطناعي على فهم المعاني والعلاقات بين الكلمات بدلاً من الاكتفاء بمطابقة الكلمات المفتاحية.
وبذلك يمكن للمستخدمين الاستعلام عن البيانات بلغة طبيعية دون الحاجة إلى لغات استعلام معقدة مثل SPARQL.
بيانات موثوقة لتدريب الذكاء الاصطناعي
من أبرز مزايا المشروع أنه يوفر بيانات موثوقة وعالية الجودة تم التحقق منها بواسطة محرري ويكيبيديا، كبديل عن مجموعات البيانات العشوائية مثل Common Crawl.
كما تتميز البيانات بكونها مهيكلة وغنية بالسياق الدلالي، على سبيل المثال ربط كلمة “عالم” بمفاهيم علمية أو أسماء علماء بارزين.
تعاون مفتوح ومتاح للجميع
أكد فيليب سعدي، مدير مشروع الذكاء الاصطناعي في ويكيبيديا، أن هذه المبادرة تسعى لإثبات أن الذكاء الاصطناعي يمكن أن يكون مفتوحًا وتعاونيًا، وليس حكرًا على عدد محدود من الشركات الكبرى.
ويُتاح المشروع للعامة عبر منصة Toolforge، مما يجعله موردًا مجانيًا يمكن لأي مطور الاستفادة منه في بناء تطبيقاته الذكية.




