गूगल ने गुरुवार को अपने पालीजेम्मा कृत्रिम बुद्धिमत्ता (एआई) विज़न-भाषा मॉडल का उत्तराधिकारी पेश किया। पालीजेम्मा 2 नामक एआई मॉडल का परिवार पुरानी पीढ़ी की क्षमताओं में सुधार करता है। माउंटेन व्यू-आधारित तकनीकी दिग्गज ने कहा कि दृष्टि-भाषा मॉडल छवियों और अन्य दृश्य संपत्तियों जैसे दृश्य इनपुट को देख, समझ और बातचीत कर सकता है। इसे जेम्मा 2 छोटे भाषा मॉडल (एसएलएम) का उपयोग करके बनाया गया है जो अगस्त में जारी किए गए थे। दिलचस्प बात यह है कि टेक दिग्गज ने दावा किया कि मॉडल अपलोड की गई छवियों में भावनाओं का विश्लेषण कर सकता है।
गूगल पालीजेम्मा एआई मॉडल
में एक ब्लॉग भेजाटेक दिग्गज ने नए पालीजेम्मा 2 एआई मॉडल के बारे में विस्तार से बताया। जबकि Google के पास कई विज़न-भाषा मॉडल हैं, पालीगेम्मा जेम्मा परिवार में पहला ऐसा मॉडल था। विज़न मॉडल विशिष्ट बड़े भाषा मॉडल (एलएलएम) से भिन्न होते हैं, जिसमें उनके पास अतिरिक्त एनकोडर होते हैं जो दृश्य सामग्री का विश्लेषण कर सकते हैं और इसे परिचित डेटा फॉर्म में परिवर्तित कर सकते हैं। इस तरह, दृष्टि मॉडल तकनीकी रूप से बाहरी दुनिया को “देख” और समझ सकते हैं।
छोटे विज़न मॉडल का एक लाभ यह है कि इसका उपयोग बड़ी संख्या में अनुप्रयोगों के लिए किया जा सकता है क्योंकि छोटे मॉडल गति और सटीकता के लिए अनुकूलित होते हैं। पालीजेम्मा 2 के ओपन-सोर्स होने से, डेवलपर्स ऐप्स बनाने के लिए इसकी क्षमताओं का उपयोग कर सकते हैं।
पालीजेम्मा 2 3 बिलियन, 10 बिलियन और 28 बिलियन के तीन अलग-अलग पैरामीटर आकारों में आता है। यह 224p, 448p, 896p रिज़ॉल्यूशन में भी उपलब्ध है। इसके कारण, तकनीकी दिग्गज का दावा है कि विभिन्न प्रकार के कार्यों के लिए एआई मॉडल के प्रदर्शन को अनुकूलित करना आसान है। Google का कहना है कि वह छवियों के लिए विस्तृत, प्रासंगिक रूप से प्रासंगिक कैप्शन तैयार करता है। यह न केवल वस्तुओं की पहचान कर सकता है बल्कि क्रियाओं, भावनाओं और दृश्य के समग्र विवरण का भी वर्णन कर सकता है।
Google ने इस बात पर प्रकाश डाला कि इस उपकरण का उपयोग रासायनिक सूत्र पहचान, संगीत स्कोर पहचान, स्थानिक तर्क और छाती एक्स-रे रिपोर्ट पीढ़ी के लिए किया जा सकता है। कंपनी ने एक भी प्रकाशित किया है कागज़ ऑनलाइन प्री-प्रिंट जर्नल arXiv में।
डेवलपर्स और एआई उत्साही पालीजेम्मा 2 मॉडल और इसके कोड को हगिंग फेस और कागल पर डाउनलोड कर सकते हैं यहाँ और यहाँ. AI मॉडल हगिंग फेस ट्रांसफॉर्मर्स, केरास, PyTorch, JAX और Gemma.cpp जैसे फ्रेमवर्क को सपोर्ट करता है।