أطلقت “جوجل” برنامج “Gemini” (الجوزاء) المنافس لنظيره “ChatGPT” من شركة “OpenAI”، ولا يكتفي “الجوزاء” بالتعامل مع النصوص فقط، بل طوّر مهارة التعامل مع الصوت والصور والفيديو أيضًا.
ويعطي البرنامج أداء أكثر تطورًا وعمومية عبر العديد من المعايير، ويعمل على تحليل وفهم المهام المكلف بها بسلاسة، من خلال دمج أنواع مختلفة من المعلومات، بما في ذلك النص والتعليمات البرمجية والصوت والصورة والفيديو أيضًا، ما يميزه عن النماذج التقليدية للغات الكبيرة المستخدمة في برامج الذكاء الاصطناعي في الآونة الأخيرة.
ثلاثة نماذج
طورت “جوجل” النسخة الأولى من “Gemini 1.0” بإصدار ثلاثة نماذج من المنصة: “Ultra” و”Pro” و”Nano”، لأداء مهام مختلفة:
- “Gemini Ultra”، وهو النموذج الأكبر والأكثر قدرة على إتمام المهام شديدة التعقيد، والأكثر استجابة أمام مهام الاستدلال النصية والصورة واسعة النطاق والمعقدة للغاية، وسيتوفر في أوائل عام 2024.
- “Gemini Pro”، أفضل نموذج للتوسع عبر مجموعة واسعة من الميزات، وهو الأفضل أداء للمهام من حيث تنوعها، مع ميزات لمجموعة واسعة من مهام التفكير المنطقي للنص والصور.
- Gemini Nano””، النموذج الأكثر كفاءة لإجراء التجارب، والمتاح استخدامه دون الاتصال بالإنترنت في بعض الحالات، بالإضافة إلى كونه أقل ضغطًا على استهلاك معالج الأجهزة.
يتجاوز أداء نسخة “Gemini Ultra” أحدث النتائج الحالية في 30 معيارًا أكاديميًا من أصل 32، فيما يخص أبحاث وتطوير نماذج اللغات الكبيرة، مثل “LLM” (نموذج لغة برمجية يمكّن من التعرف على النصوص أو المحتويات الأخرى أو ترجمتها أو التنبؤ بها أو إنشائها).
ويعد “الجوزاء” النموذج الأول الذي يتفوق على الخبراء البشريين في “MMLU” (فهم اللغة متعدد المهام الهائل) بنسبة 90%، والذي يستخدم مجموعة من 57 موضوعًا مثل الرياضيات والفيزياء والتاريخ والقانون والطب والأخلاق لاختبار المعرفة العالمية وقدرات حل المشكلات.
ويمكّن نهج “الجوزاء” المعياري الجديد تجاه الـ”MMLU” من استخدام قدراته المنطقية للتفكير بعناية أكبر قبل الإجابة عن الأسئلة الصعبة.
“Gemini” و”Bard”
طرحت “جوجل” إصدارًا أوليًا من نموذج “Gemini” (الجوزاء) الجديد ضمن خدمة “Chatbot Bard” (برنامج الدردشة الشبيه بـ”ChatGPT”) الخاصة بها، ويستخدم أسلوبًا دقيقًا من نسخة معدلة من الـ”Gemini Pro”، للمزيد من التفكير والتخطيط والفهم المتقدم.
وسيكون هذا الإصدار متاحًا في أكثر من 170 دولة ومنطقة، حيث أعلنت الشركة أيضًا أن “Gemini” أصبح متاحًا للمطورين عبر واجهة برمجة تطبيقات “Google Cloud” منذ 13 من كانون الأول الحالي.
بالإضافة إلى ذلك، تخطط “جوجل” لدمج نموذج “الجوزاء” في منتجاتها الأخرى، مثل البحث العام والإعلانات ومتصفح البحث “Chrome” و”Duet AI” (نموذج لتطوير التطبيقات بمساعدة الذكاء الاصطناعي) في الأشهر المقبلة.
وفي أوائل العام المقبل، ستدخل “جوجل” “Gemini Ultra” إلى تجربة “Bard Advanced” الجديدة.
وسيتم دمج نسخة متخصصة من “Gemini Pro” في نسخة جديدة من “AlphaCode”، وهي أداة توليدية للبرمجة من “Google DeepMind”، باعتبارها “منتجًا بحثيًا”.
أكدت نائبة رئيس شركة “جوجل” والمديرة العامة لـ”Bard”، سيسي هسياو، أن القدرات المتعددة الوسائط لنموذج “الجوزاء” منحت “Bard” مهارات جديدة، وعززت قدراته في مجالات متعددة مثل تلخيص المحتوى والعصف الذهني والكتابة والتخطيط أيضًا.
وقدمت “جوجل” عدة عروض توضيحية تبرز قدرات “الجوزاء” على التعامل مع المشكلات التي تتضمن المعلومات المرئية، مثل الاستجابة لمقاطع الفيديو التي تحتوي على رسومات وألغاز وخرائط.
كما بيّن الباحثون كيف يمكن لـ”الجوزاء” المساعدة في البحث العلمي عن طريق الإجابة عن أسئلة تتعلق بالأوراق البحثية التي تحتوي على رسوم بيانية ومعادلات.
وذكر نائب رئيس “Google DeepMind”، إيلي كولينز، أن نموذج “Gemini Pro” تفوق في الأداء على النموذج السابق لـ”GPT-3.5″، الذي كان يدعم “ChatGPT” في البداية، بستة من أصل ثمانية معايير مستخدمة عادة لاختبار ذكاء برامج الذكاء الاصطناعي.