علي بابا تطلق أداة Wan2.2-S2V لإنتاج مقاطع فيديو بجودة الأفلام

أحدث إصدارات الذكاء الاصطناعي من “علي بابا كلاود”

أعلنت وحدة الذكاء الاصطناعي والحوسبة السحابية التابعة لمجموعة علي بابا القابضة عن إطلاق أداة Wan2.2-S2V، وهو أحدث نموذج مفتوح المصدر ضمن سلسلة Wan2.2، قادر على إنتاج مقاطع فيديو واقعية بجودة سينمائية انطلاقًا من صورة ثابتة ومقطع صوتي.

ويُعتبر هذا النموذج جزءًا من جهود “علي بابا كلاود” لتعزيز ريادتها في سوق الذكاء الاصطناعي الصيني والعالمي، حيث روجت الشركة الشهر الماضي لعائلة Wan2.2 كأول نموذج مفتوح المصدر مخصص لتوليد مقاطع فيديو كبيرة الحجم، بالاعتماد على هندسة “مزيج الخبراء” (MoE).

أداء متطور للشخصيات المتعددة

أوضحت “علي بابا كلاود” أن Wan2.2-S2V، المدعوم بتقنيات رسوم متحركة متقدمة تعتمد على الصوت، يقدم أداءً واقعيًا للشخصيات يتراوح بين الحوار الطبيعي والعروض الموسيقية، مع القدرة على التعامل مع أكثر من شخصية داخل المشهد الواحد بسلاسة.
وأكدت الشركة أن هذا التطور يعتمد على مجموعة بيانات سمعية وبصرية واسعة صُممت خصيصًا لسيناريوهات إنتاج الأفلام والتلفزيون.

دعم منشئي المحتوى المحترفين

ذكرت الشركة أن الأداة الجديدة توفر لمُنشئي المحتوى إمكانيات لالتقاط تمثيلات بصرية دقيقة تُناسب احتياجات سرد القصص والتصميم الإبداعي. كما تدعم الأداة مخرجات بدقتين مختلفتين:

  • 480 بكسل (قياسية) للمحتوى السريع ووسائل التواصل الاجتماعي.
  • 720 بكسل (عالية الجودة) للعروض التقديمية الاحترافية ومقاطع الفيديو الأكثر تفصيلًا.

مرونة في زوايا التصوير

يتيح Wan2.2-S2V إنشاء مقاطع فيديو عبر خيارات تأطير متعددة، تشمل:

  • المنظور العمودي.
  • منظور الصدر.
  • منظور الجسم الكامل.
    وذلك لتلبية مختلف احتياجات الإنتاج البصري على المنصات الرقمية.

منافسة محتدمة في الذكاء الاصطناعي الصيني

يأتي إطلاق Wan2.2-S2V في وقت تتسابق فيه شركات التكنولوجيا الصينية للحاق بالمنافسة العالمية في مجال الذكاء الاصطناعي، خاصة أمام الشركات الأميركية. ويعتمد هذا التوجه على النماذج مفتوحة المصدر التي تتيح للمطورين استخدام الشفرة المصدرية وتعديلها وتوزيعها بحرية، مما يعزز الابتكار المجتمعي.

وكانت “علي بابا كلاود” قد أعلنت أن نماذجها السابقة Wan2.1 وWan2.2 حققت أكثر من 6.9 مليون عملية تنزيل عبر منصتي Hugging Face وModelScope.

تقنية “مزيج الخبراء” (MoE)

يعتمد Wan2.2-S2V على هندسة MoE، حيث يتم تقسيم النموذج إلى شبكات فرعية مستقلة تُعرف باسم “خبراء”، يتخصص كل منها في معالجة جزء من البيانات لتحقيق مهمة مشتركة، ما يرفع من كفاءة الأداء وجودة المخرجات.

مقاطع طويلة بتفاصيل بصرية متسقة

بحسب فريق التطوير، فإن النموذج قادر على إنتاج مقاطع فيديو طويلة مع الحفاظ على تفاصيل بصرية متناسقة وواقعية، ما يجعله مناسبًا لسيناريوهات إنتاج الأفلام والتلفزيون وكذلك محتوى منصات التواصل.

منافسة مع “بايت دانس”

إطلاق Wan2.2-S2V يأتي بعد أشهر قليلة من إعلان شركة بايت دانس (المالكة لتطبيق “تيك توك”) عن نموذجها متعدد الوسائط OmniHuman-1، القادر على تحويل مزيج من الصور والمقاطع الصوتية إلى مقاطع فيديو واقعية، ما يزيد من حدة المنافسة الصينية – الصينية داخل قطاع الذكاء الاصطناعي.

 

شارك هذا الخبر
يوسف إبراهيم
يوسف إبراهيم
المقالات: 883

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *