أعلنت شركة Microsoft عن إطلاق مجموعة جديدة من نماذج الذكاء الاصطناعي، تشمل MAI-Transcribe-1 وMAI-Voice-1 وMAI-Image-2، في خطوة تهدف إلى تعزيز قدرات توليد الكلام والصوت والصور.
وتتوفر النماذج الجديدة عبر منصة Microsoft Foundry وMAI Playground (حصريًا في الولايات المتحدة)، مع التركيز على تقديم أداء أسرع وكفاءة أعلى وأسعار تنافسية.
تحسين دقة النسخ والصوت
يُعد نموذج MAI-Transcribe-1 مخصصًا لتحويل الكلام إلى نص بدقة عالية، حيث يدعم أكثر من 25 لغة، ويعتمد على معيار FLEURS، كما يتميز بقدرته على التعامل مع ظروف الصوت الواقعية، مع سرعة نسخ تصل إلى 2.5 مرة مقارنة بخدمة Azure Fast.
أما نموذج MAI-Voice-1، فيركز على توليد الصوت بنبرة طبيعية وتنوع عاطفي واسع، مع إمكانية إنشاء أصوات مخصصة باستخدام عينات صوتية قصيرة، إضافة إلى قدرته على إنتاج 60 ثانية من الصوت في ثانية واحدة فقط، مع تحسينات في استهلاك موارد GPU.
توليد الصور بسرعة ودقة
وفي مجال الصور، يأتي نموذج MAI-Image-2 ليقدم تحسينات كبيرة، حيث يتيح توليد الصور بسرعة مضاعفة مقارنة بالإصدارات السابقة على منصتي Foundry وCopilot، مع تحسينات في الإضاءة، ودقة ألوان البشرة، ووضوح النصوص داخل الصور.
كما تعمل مايكروسوفت على دمج هذه النماذج في خدماتها المختلفة مثل Bing وMicrosoft PowerPoint، ما يعزز من تجربة المستخدم.
إتاحة للمطورين وتوسيع الاستخدام
وأكدت الشركة أن هذه النماذج متاحة للمطورين، مما يتيح لهم بناء تطبيقات وخدمات تعتمد على تقنيات الذكاء الاصطناعي الجديدة، في إطار سعي مايكروسوفت لتوسيع حضورها في هذا المجال ومنافسة الشركات الكبرى.




