
Google डीपमाइंड ने अपने मिथुन रोबोटिक्स परिवार में दो नए आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल पेश किए हैं, जिसका उद्देश्य सामान्य-उद्देश्य वाले रोबोट की क्षमताओं को बढ़ाना है। मिथुन रोबोटिक्स-एर 1.5 और मिथुन रोबोटिक्स 1.5 नामक मॉडल, वास्तविक दुनिया के वातावरण में तर्क, दृष्टि और कार्रवाई में सुधार करने के लिए एक साथ काम करने के लिए डिज़ाइन किए गए हैं।
योजना और निष्पादन के लिए दो-मॉडल प्रणाली
एक के अनुसार ब्लॉग भेजा दीपमाइंड से, मिथुन रोबोटिक्स-एर 1.5 योजनाकार या ऑर्केस्ट्रेटर के रूप में कार्य करता है, जबकि मिथुन रोबोटिक्स 1.5 प्राकृतिक भाषा निर्देशों के आधार पर कार्यों को निष्पादित करने के लिए जिम्मेदार है। दो-मॉडल प्रणाली का उद्देश्य पहले एआई मॉडल में देखी गई सीमाओं को संबोधित करना है, जहां एक एकल प्रणाली ने योजना बनाई और प्रदर्शन की, अक्सर निष्पादन में त्रुटियों या देरी के लिए अग्रणी।
मिथुन रोबोटिक्स-एर 1.5: प्लानर
ईआर 1.5 मॉडल एक दृष्टि-भाषा मॉडल (VLM) के रूप में कार्य उन्नत तर्क और उपकरण एकीकरण के लिए सक्षम है। यह किसी दिए गए कार्य के लिए मल्टी-स्टेप प्लान बना सकता है और स्थानिक समझ बेंचमार्क पर दृढ़ता से प्रदर्शन करने के लिए सूचित किया जाता है। मॉडल भौतिक वातावरण में निर्णय लेने के लिए जानकारी एकत्र करने के लिए बाहरी उपकरणों, जैसे Google खोज जैसे बाहरी उपकरणों तक भी पहुंच सकता है।
मिथुन रोबोटिक्स 1.5: कार्य निष्पादन
एक बार एक योजना तैयार की जाती है, मिथुन रोबोटिक्स 1.5एक दृष्टि-भाषा-एक्शन (VLA) मॉडल, निर्देश और दृश्य इनपुट को मोटर कमांड में अनुवाद करता है, जो रोबोट को कार्य करने के लिए सक्षम करता है। मॉडल एक कार्रवाई को पूरा करने और इसे निष्पादित करने के लिए सबसे कुशल पथ का आकलन करता है, जबकि प्राकृतिक भाषा में अपने निर्णय लेने के स्पष्टीकरण की पेशकश भी करता है।
जटिल बहु-चरणीय कार्यों को संभालना
सिस्टम को रोबोटों को एक सहज प्रक्रिया में जटिल, मल्टी-स्टेप कमांड को संभालने की अनुमति देने के लिए डिज़ाइन किया गया है। उदाहरण के लिए, एक रोबोट स्थानीय रीसाइक्लिंग दिशानिर्देशों से परामर्श करने, वस्तुओं का विश्लेषण करने, छंटाई प्रक्रिया की योजना बनाने और फिर कार्यों को निष्पादित करने के बाद एक रोबोट खाद, रीसाइक्लिंग और कचरा डिब्बे में छाँट सकता है।
दीपमाइंड बताता है कि एआई मॉडल उनकी स्थानिक जागरूकता और लचीले डिजाइन के कारण विभिन्न आकृतियों और आकारों के रोबोट के अनुकूल हैं। वर्तमान में, ऑर्केस्ट्रेटर मॉडल, मिथुन रोबोटिक्स-एर 1.5, Google एआई स्टूडियो में मिथुन एपीआई के माध्यम से डेवलपर्स के लिए सुलभ है, जबकि वीएलए मॉडल भागीदारों के लिए सीमित है।
यह विकास रोबोटिक्स में जेनेरिक एआई को एकीकृत करने में एक कदम है, पारंपरिक इंटरफेस को प्राकृतिक भाषा-चालित नियंत्रण के साथ बदल देता है, जबकि त्रुटियों को कम करने के लिए निष्पादन से योजना को अलग करने का भी प्रयास करता है।