“OpenAI” تتيح للمطورين إنشاء تطبيقات صوتية تفاعلية مع ترجمة فورية

أعلنت شركة OpenAI عن مجموعة جديدة من ميزات الذكاء الصوتي ضمن واجهاتها البرمجية (API)، في خطوة تهدف إلى تمكين المطورين من بناء تطبيقات قادرة على التفاعل الصوتي المباشر مع المستخدمين، مع دعم الترجمة الفورية ونسخ المحادثات في الوقت الحقيقي.

جيل جديد من النماذج الصوتية التفاعلية

كشفت الشركة عن نموذجها الجديد GPT-Realtime-2، المصمم لتقديم محاكاة صوتية واقعية تتيح إجراء محادثات طبيعية وسلسة مع المستخدمين.

ويأتي هذا النموذج خلفاً لإصدار GPT-Realtime-1.5، مع اعتماد قدرات استدلال متقدمة من فئة GPT-5، ما يمنحه قدرة أعلى على فهم السياقات المعقدة والتعامل مع الطلبات متعددة الخطوات أثناء المحادثة.

الترجمة الفورية أثناء المحادثات

أطلقت “OpenAI” خدمة جديدة تحمل اسم GPT-Realtime-Translate، تتيح الترجمة الفورية المباشرة أثناء الحديث دون تأخير ملحوظ، بما يحافظ على سلاسة التواصل بين المستخدمين بلغات مختلفة.

وتدعم الخدمة أكثر من 70 لغة للإدخال، إلى جانب 13 لغة للإخراج الصوتي، ما يعزز استخدامها في بيئات العمل والتعليم والتواصل العالمي.

نسخ صوتي لحظي للمحادثات

ضمن التحديثات الجديدة، قدمت الشركة ميزة GPT-Realtime-Whisper، والتي تتيح تحويل الكلام إلى نص بشكل لحظي أثناء المحادثة.

وتستهدف هذه التقنية تحسين توثيق الاجتماعات والمكالمات، وتسهيل الوصول إلى المحتوى الصوتي بشكل فوري ودقيق.

نقلة في تفاعل الذكاء الاصطناعي الصوتي

أوضحت “OpenAI” أن هذه التقنيات تمثل تحولاً نوعياً في قدرات التفاعل الصوتي، حيث لم تعد النماذج تقتصر على الرد على الأوامر فقط، بل أصبحت قادرة على الاستماع، والاستدلال، والترجمة، والنسخ، واتخاذ إجراءات أثناء سير المحادثة.

استخدامات واسعة في قطاعات مختلفة

تتوقع الشركة أن تسهم هذه الأدوات في تطوير تطبيقات متعددة، خاصة في مجالات خدمات العملاء، والتعليم، والإعلام، وتنظيم الفعاليات، إضافة إلى منصات صناعة المحتوى.

ضوابط أمان لمنع إساءة الاستخدام

رغم الإمكانات المتقدمة، أكدت “OpenAI” أنها أدرجت ضوابط أمان صارمة للحد من إساءة استخدام هذه التقنيات في الاحتيال أو الرسائل المزعجة أو الأنشطة الضارة عبر الإنترنت.

كما أوضحت أن النظام يتضمن آليات لرصد المحتوى المخالف، مع إمكانية إيقاف المحادثات التي تنتهك سياسات الاستخدام.

نموذج تسعير جديد عبر API

أشارت الشركة إلى أن جميع النماذج الصوتية الجديدة أصبحت متاحة عبر Realtime API، حيث يتم احتساب تكلفة خدمات الترجمة والنسخ بالدقيقة، بينما يعتمد تسعير GPT-Realtime-2 على عدد الرموز (Tokens) المستخدمة في المعالجة.

 

شارك هذا الخبر
إبراهيم شعبان
إبراهيم شعبان

صحفي متخصص في التكنولوجيا

المقالات: 1721

اترك ردّاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *