وفق تدوينة رسمية من جوجل، فإن الإصدار الأول من الجيل الجديد سيكون الإصدار الخفيف Gemini 2.0 Flash المزوَّد بالقدرة على فهم المدخلات البيانية، من صور، وفيديوهات، ونصوص، وأصوات، وكذلك القدرة على إنتاج مخرجات بأشكال مختلفة.
وقدَّمت الشركة مجموعة من المشروعات التجريبية المدعومة بإصدار Gemini 2.0 Flash الجديد، مثل المساعد البرمجي Project Mariner المتخصص في تسهيل استخدام متصفح كروم بشكل آلي لإنجاز مهام المستخدم، والمساعد الذكي لكتابة الأكواد Jules، إلى جانب المساعد الصوتي الذكي Project Astra، والذي يجيب على تساؤلات المستخدم، ويفهم، ويدرك العالم عبر عدسة كاميرا الهواتف والنظارات الذكية.
Gemini 2.0 Flash
صممت جوجل نموذجها الجديد Gemini 2.0 Flash على أساس الجيل السابق Gemini 1.5 Flash، مع حصوله على أداء متطور، وسرعة استجابة للتعامل مع المهام، ومعالجة البيانات المختلفة، بشكل أسرع بمعدل ضعف سرعة أداء Gemini 1.5 Pro.
يأتي النموذج الجديد بإمكانيات مثل القدرة على التعامل مع أشكال المدخلات البيانية المختلفة، مثل الصور والفيديوهات والأصوات، إلى جانب حصوله على قدرات جديدة على إنتاج محتوى من الصور، والأصوات وكذلك تحويل النصوص إلى كلام منطوق.
بالإضافة إلى ذلك، فإن Gemini 2.0 Flash يمكنه استخدام أدوات مختلفة، مثل خرائط جوجل، ومحرك بحث جوجل سيرش، إلى جانب قدرته على تشغيل الأكواد البرمجية، وتنفيذ أوامر المستخدم مع تطبيقات الطرف الثالث.
يتوفر Gemini 2.0 Flash حالياً، بشكل تجريبي، للمطورين داخل الواجهة البرمجية لجيميناي، على متن منصة Google AI Studio ومنصة Vertex AI، والإتاحة الرسمية العامة له ستكون في يناير المقبل.
ولتيسير استخدام المطورين للنموذج الجديد في تطوير تطبيقات، وتجارب تفاعلية، أطلقت جوجل أيضاً واجهة برمجية، تعرف باسم Multimodal Live API، والتي تتيح تطوير تجارب وتطبيقات، تمكِّن التجارب الذكية من إدراك مدخلات مختلفة، مثل أصوات وفيديوهات حية، وكذلك القدرة على استخدام العديد من الأدوات الرقمية.
كذلك يتوفر نموذج Gemini 2.0 Flash الجديد داخل موقع الويب الخاص بجيميناي على الحواسيب الشخصية، ومتصفحات الموبايل، وسيكون متاحاً قريباً على متن تطبيقات جيميناي للهواتف الذكية.
أما على مستوى خدمات جوجل، فإن الشركة ستعزز قدرات ميزتها الذكية للبحث AI Overview عبر إضافة النموذج الجديد داخل محرك جوجل للبحث، بحيث يمكنه إدراك استفسارات المستخدمين من حيث الأسئلة، والقدرة على إجابتها، حتى وإن كانت أسئلة معقدة، تحتاج لعدة خطوات لإجاباتها، إلى جانب تزويده بإمكانية حل المعادلات الحسابية المتقدمة، وكتابة الأكواد.
سيبدأ وصول تلك القدرات إلى AI Overview داخل جوجل سيرش خلال الأسبوع الجاري، مع إتاحة أوسع عالمياً بحلول 2025.
ووعدت جوجل بأن تضيف Gemini 2.0 Flash إلى المزيد من خدماتها، وستوفر ميزة AI Overview حول العالم بلغات مختلفة بحلول العام المقبل.
وكلاء Gemini الرقميين
وضعت جوجل فكرة الوكلاء الرقميين AI Agents في صلب أساس تطويرها للجيل الثاني من جيميناي.
وقال سوندار بيتشاي، مدير جوجل التنفيذي، إن فكرة الوكلاء الرقميين شغلت الشركة منذ العام الماضي، وعملت بشكل مكثف على الاستثمار في مشروعات بحثية، ونماذج ذكية "تركز على تقديم ذكاء اصطناعي قادر على فهم العالم من حول المستخدم، وتحليل وإدراك مختلف البيانات بأشكالها المتنوعة، كي يتمكن من تحليل المواقف، واستباق مجرياتها بعدة خطوات، وعندها يستطيع اتخاذ قرارات نيابة عن المستخدم، ولكن تحت إشرافه".
هذا تماماً ما تقدمه جوجل مع Gemini 2.0 Flash، ومشروعاتها البرمجية التجريبية القائمة عليه، وأولها Project Astra، والذي استعرضته الشركة لأول مرة في مؤتمرها للمطورين I/O 2024 أبريل الماضي، إذ يقدم ذكاءً اصطناعياً قادراً على فهم الصور والفيديوهات والأصوات واللغات التي تُدخل إليه عبر هاتف المستخدم، بشكل حي، من مكونات إلكترونية مثل الميكروفون والكاميرا.
بعد تلقي هذه المدخلات، يرد النموذج بإجابات دقيقة عبر قدرته على البحث على الويب من خلال جوجل سيرش، وكذلك الوصول إلى بيانات جغرافية مكانية دقيقة عبر اعتماده على خرائط جوجل، إضافة إلى قدرته على استخدام ميزة البحث البصري Google Lens، كما أنه يتمتع بذاكرة قوية للمحادثات القديمة مع المستخدم، إضافة إلى ذاكرة قصيرة الأجل تصل إلى 10 دقائق بحيث يمكنه الاستمرار في نقاش تفاصيل مختلفة في نفس جلسة الاستخدام.
تحاول جوجل تقديم تلك الإمكانيات المتميزة على متن عدد من منتجاتها، مثل تطبيق جيميناي للهواتف الذكية، وكذلك بعض النظارات الذكية.
وتعمل جوجل على نظارة ذكية بالتعاون مع سامسونج وكوالكوم، ومن المنتظر إطلاقها العام المقبل.
إلى جانب مشروعها "أسترا" كمساعد افتراضي يعتمد على الذكاء الاصطناعي متعدد الوسائط، تركز جوجل عبر مشروعها التجريبي Project Mariner، على تقديم وكلاء أذكياء، يمكنهم المساعدة في إنجاز مهام متعددة للمستخدم، والبداية ستكون داخل متصفحها جوجل كروم.
المشروع التجريبي الجديد سيسمح للمستخدم باستخدام الوكيل الذكي للتفاعل مع عناصر الشاشة من صور ونصوص وأزرار وأكواد برمجية داخل نافذة المتصفح، بحيث يمكن للمستخدم توجيه أمر معين، ويصبح بإمكان الوكيل الذكي التحرك داخل النافذة، والكتابة والبحث لإنجاز تلك المهمة، مع الرجوع إلى المستخدم للحصول على تأكيد لإتمام العملية في حال كان الأمر حساساً، مثل عملية الشراء عبر الإنترنت.
وحصلت الخدمة التجريبية من Google، والتي تتمثل في إضافة تجريبية لمتصفح Chrome، على تقييم 83.5%، وذلك وفق مقياس WebVoyager المخصص لاختبار قدرات الوكلاء الرقميين على إنجاز المهام على الويب.
ورغم قدراته المميزة، يواجه عمل وكيل مشروع Project Mariner الرقمي، احتمالات الخطأ، ويشوبه بعض البطء، وهو ما وعدت Google بتطويره بمرور الوقت.
وطوَّرت Google مساعداً ذكياً لكتابة الأكواد البرمجية، يحمل اسم Jules، والذي يساعد في تحديد المعضلة، أو المهمة البرمجية المرغوب في إنجازها، ومن ثم يبدأ العمل على حلها عبر كتابة الأكواد، ثم يقوم بالتنفيذ، تحت إشراف كامل من المبرمج البشري.
ويتيح الوكيل الذكي للبرمجة التجريبي إمكانية إضافته إلى بيئة كتابة الأكواد، مثل منصة GitHub.
على مستوى الألعاب، عمل فريق Google DeepMind على تطوير جيل جديد من مساعد ذكي لإنشاء عوالم الألعاب الرقمية Genie، والذي يساعد على تصميم عوالم ثلاثية الأبعاد لألعاب الفيديو، مع قدرته على تصميم شخصيات رقمية داخل الألعاب، تساعد اللاعبين على التجول داخل الألعاب، وتعينهم على تخطي العقبات من خلال المساعدة في وضع استراتيجيات لإنجاز المهام.