‘सबसे शौकीन उपयोगकर्ताओं में भारतीय’: बहुभाषी एआई छवि निर्माण पर ओपनएआई की इमेजेज 2.0 के पीछे की टीम | प्रौद्योगिकी समाचार

Vikas Halpati

3 hours ago

एआई इमेज जेनरेशन मॉडल कैसे विकसित किए जाते हैं, इसे आकार देने में भारत बढ़ती भूमिका निभा रहा है, ओपनएआई की चैटजीपीटी इमेजेज 2.0 अब हिंदी में मंगा-शैली पैनल से लेकर भीड़-भाड़ और अराजक भारतीय सड़कों के अधिक यथार्थवादी चित्रण तक सब कुछ तैयार करने में सक्षम है।

इस हफ्ते की शुरुआत में, ओपनएआई के सीईओ सैम ऑल्टमैन ने कहा कि भारतीय उपयोगकर्ताओं ने अप्रैल 2026 में रिलीज होने के बाद से इमेजेज 2.0 का उपयोग करके एक अरब से अधिक विजुअल तैयार किए हैं। यह मील का पत्थर ओपनएआई द्वारा पहली बार ‘इमेजेज फॉर चैटजीपीटी’ फीचर पेश करने के एक साल बाद आया है, जिसने वायरल स्टूडियो घिबली-शैली एआई इमेज ट्रेंड को शुरू किया।

हालाँकि, OpenAI भी कथित तौर पर एक व्यापक रणनीतिक रीसेट के दौर से गुजर रहा है, जो उद्यम उत्पादों की ओर प्रतिभा और कंप्यूटिंग संसाधनों को पुनर्निर्देशित करते हुए प्रयोगात्मक साइड परियोजनाओं पर प्लग खींच रहा है। एक आश्चर्यजनक कदम में, कंपनी ने अपने लोकप्रिय एआई वीडियो-जेनरेशन टूल सोरा को जनता के लिए जारी करने के छह महीने बाद ही बंद कर दिया।

इस संदर्भ में, इंडियन एक्सप्रेस सैन फ्रांसिस्को स्थित टीम के सदस्यों के साथ बैठे, जिन्होंने इमेजेज 2.0 का निर्माण किया, यह समझने के लिए कि नवीनतम मॉडल वास्तव में पिछले संस्करणों के मुकाबले एक कदम बदलाव है और इससे भी महत्वपूर्ण बात यह है कि इसे भारत जैसे बहुभाषी, सांस्कृतिक रूप से विविध बाजारों के लिए कैसे दोहराया गया – एक ऐसा दृष्टिकोण जो गोद लेने और उपयोगकर्ता जुड़ाव के मामले में लाभदायक प्रतीत होता है।

ओपनएआई के एक शोध वैज्ञानिक बोयुआन चेन ने कहा, “पहले, मॉडल मूल्यांकन सहित हमारा अधिकांश काम अंग्रेजी में किया जाता था। हमारे मॉडलों को भी कई विवरणों के साथ संघर्ष करना पड़ता था, खासकर एशियाई भाषाओं में। चीनी, जापानी, कोरियाई, हिंदी और अन्य भाषाओं में, अंग्रेजी में सिर्फ 26 अक्षरों की तुलना में हजारों अक्षर हैं।”

“हालांकि, इस बार, हमने यह सुनिश्चित करने में बहुत समय बिताया कि दुनिया भर की संस्कृतियाँ हमारी आंतरिक पुनरावृत्ति प्रक्रिया में शामिल थीं। जब भी हमने देखा कि कोई भाषा अच्छा प्रदर्शन नहीं कर रही है, तो हमने व्यापक सांस्कृतिक और भाषाई कवरेज सुनिश्चित करने के लिए बहुत अधिक डेटा जोड़ा,” चेन ने समझाया।

चैटजीपीटी इमेजेज 2.0 के साथ, ओपनएआई ने कहा कि उसने गैर-लैटिन टेक्स्ट रेंडरिंग में महत्वपूर्ण उपलब्धि हासिल की है, खासकर जापानी, कोरियाई, चीनी, हिंदी और बंगाली में। कहा जाता है कि मॉडल की बहुभाषी समझ सरल अनुवाद से आगे जाती है, जहां भाषा पोस्टर, कॉमिक्स, आरेख इत्यादि जैसे दृश्य आउटपुट में अंतर्निहित होती है।