أطلقت شركة DeepSeek نموذجًا جديدًا مفتوح المصدر للذكاء الاصطناعي، يحمل اسم DeepSeek-OCR، مصممًا لإحداث ثورة في طريقة تحليل ومعالجة النصوص. يعتمد النموذج على تحويل النص العادي إلى بُعد بصري باستخدام تقنية “رسم الخرائط ثنائية الأبعاد”، مما يضغط السياق الطويل في شكل يسهل على الآلة استيعابه بكفاءة.
مبدأ عمل “الضغط البصري للسياق”
يوضح القائمون على DeepSeek أن نماذج اللغة الكبيرة (LLMs) تظهر كفاءة أعلى في معالجة البيكسلات مقارنة بالنصوص التقليدية. ويستغل DeepSeek-OCR هذا المبدأ:
تحويل النص إلى صورة: يعتمد النموذج على تقنية التعرّف الضوئي على الحروف (OCR)، لكنه يتجاوزها ليقوم بتحويل النصوص إلى صور أولاً قبل البدء بعملية التحليل.
التقاط المعلومات الأساسية: يسمح هذا التحويل البصري للنموذج بالتقاط المعلومات الأكثر صلة لتوليد استجابات أسرع وأكثر دقة.
تقليص حجم البيانات: يُعرف هذا المفهوم بـ “الضغط البصري للسياق”، حيث يتم تحويل صفحات نصية طويلة إلى رموز بصرية مكثفة أصغر حجمًا بكثير من الرموز النصية المعتادة.
إنجاز غير مسبوق: كمثال على كفاءته، يمكن للنموذج معالجة مقال مكون من 1000 كلمة باستخدام حوالي 100 رمز بصري فقط، وهو ما يمثل تقليصًا كبيرًا في حجم البيانات دون فقدان المعنى الأساسي.
إتاحة النموذج والإقبال المجتمعي
مفتوح المصدر: تم إتاحة نموذج DeepSeek-OCR عبر منصة GitHub بموجب ترخيص معهد ماساتشوستس للتكنولوجيا (MIT)، مما يسمح باستخدامه للأغراض الأكاديمية والتجارية.
إقبال واسع: حظي النموذج باهتمام مجتمعي كبير، حيث تجاوز عدد الإعجابات به 6700 إعجاب خلال 24 ساعة فقط من إطلاقه، مما يدل على اهتمام المطورين والباحثين بهذا النهج الجديد في معالجة النصوص بصريًا.




