نموذج ذكاء اصطناعي من “ميتا” ينتهك حقوق النشر بإعادة إنتاج 42% من كتاب “هاري بوتر”

دراسة تكشف قدرة Llama 3.1 على استرجاع فقرات كاملة من الرواية… مقارنة بـ4.4% فقط للنموذج الأقدم

كشفت دراسة أكاديمية حديثة عن انتهاك خطير لحقوق النشر ارتكبه نموذج الذكاء الاصطناعي الجديد “Llama 3.1” من شركة “ميتا”، بعد أن تبين أنه قادر على تذكّر 42% من نص أول كتاب في سلسلة “هاري بوتر” الشهيرة، ما يثير مخاوف قانونية وأخلاقية بشأن محتوى بيانات التدريب المستخدمة.

باحثون: النموذج يُعيد إنتاج فقرات كاملة بدقة عالية

الدراسة، التي أجراها باحثون من جامعات ستانفورد وكورنيل وويست فرجينيا، أظهرت أن نموذج “Llama 3.1″، الذي تم إطلاقه في يوليو 2024، قادر على إعادة إنتاج فقرات كاملة من الكتاب بمجرد إعطائه الجملة الافتتاحية. واعتبر الباحثون أن هذا الأمر يُعد انتهاكًا صريحًا لحقوق الطبع والنشر، إذ أن النموذج لا يكتفي باستحضار أحداث عامة، بل يسترجع نصوصاً شبه مطابقة للأصل.

النموذج الأقدم لم يتجاوز 4.4% من النص

وللمقارنة، فإن الإصدار الأقدم من النموذج لم يكن يتذكر سوى 4.4% فقط من نفس الكتاب، مما يوضح الفارق الكبير في حجم البيانات المستوعبة ومدى اعتماد النموذج الجديد على محتوى محفوظ الحقوق.

الكتب الأكثر شهرة أكثر عرضة للتكرار

ووفقاً للدراسة التي نشرت نتائجها منصة “Gagadget” واطلعت عليها “العربية Business”، فإن قدرة النموذج على استرجاع النصوص تعتمد بشكل كبير على مدى شهرة الكتاب. فعلى سبيل المثال، أظهر النموذج قدرة كبيرة على تذكر كتب مشهورة مثل “هاري بوتر” و”ذا هوبيت”، بينما كانت نسبة التذكر أقل من 1% في كتب أقل شهرة مثل “Sandman Slim”.

آلية فحص دقيقة تكشف مدى معرفة النموذج بالنص الأصلي

استخدم الباحثون طريقة تحليل متقدمة تعتمد على قياس “ثقة” النموذج في اختيار الكلمة التالية، وهي تقنية تُظهر مدى اعتياد الذكاء الاصطناعي على النص الأصلي. وقد أظهرت هذه الطريقة أن النموذج يتعامل مع نصوص شهيرة بثقة عالية، ما يشير إلى أنه قد “قرأها” أثناء التدريب.

تدريب ضخم يشمل 15 تريليون كلمة

ويرجح أن السبب وراء هذه القدرة هو اعتماد شركة “ميتا” على تدريب النموذج على مجموعة ضخمة من البيانات بلغ حجمها 15 تريليون كلمة، تتضمن ليس فقط الكتب المنشورة، بل أيضاً محتوى من المنتديات، والمراجعات، والمواقع المخصصة للمعجبين، والتي كثيراً ما تحتوي على اقتباسات متكررة من الكتب الشهيرة.

مخاوف قانونية تتصاعد

يثير هذا الكشف تساؤلات حول مدى قانونية استخدام مثل هذه النماذج في التطبيقات العامة، خاصةً إذا كانت قادرة على إعادة إنتاج محتوى محمي بحقوق النشر بدقة تشبه نسخ الطابعات. وتخشى جهات حقوقية ومؤلفون أن تتحول هذه التقنية إلى وسيلة لنسخ الأعمال الأدبية بشكل غير مشروع.

خلاصة:

مع تقدم قدرات الذكاء الاصطناعي، يبدو أن النماذج اللغوية مثل “Llama 3.1” بدأت تلامس الخطوط الحمراء لحقوق النشر، ما يستدعي تدقيقاً أكبر في مصادر بيانات التدريب، ووضع أطر قانونية واضحة لضمان حماية الملكية الفكرية في عصر الذكاء الاصطناعي.

شارك هذا الخبر
يوسف إبراهيم
يوسف إبراهيم
المقالات: 884

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *