Site icon Taaza Time 18

‘सबसे शौकीन उपयोगकर्ताओं में भारतीय’: बहुभाषी एआई छवि निर्माण पर ओपनएआई की इमेजेज 2.0 के पीछे की टीम | प्रौद्योगिकी समाचार

Tech-featured-image241.jpg


एआई इमेज जेनरेशन मॉडल कैसे विकसित किए जाते हैं, इसे आकार देने में भारत बढ़ती भूमिका निभा रहा है, ओपनएआई की चैटजीपीटी इमेजेज 2.0 अब हिंदी में मंगा-शैली पैनल से लेकर भीड़-भाड़ और अराजक भारतीय सड़कों के अधिक यथार्थवादी चित्रण तक सब कुछ तैयार करने में सक्षम है।

इस हफ्ते की शुरुआत में, ओपनएआई के सीईओ सैम ऑल्टमैन ने कहा कि भारतीय उपयोगकर्ताओं ने अप्रैल 2026 में रिलीज होने के बाद से इमेजेज 2.0 का उपयोग करके एक अरब से अधिक विजुअल तैयार किए हैं। यह मील का पत्थर ओपनएआई द्वारा पहली बार ‘इमेजेज फॉर चैटजीपीटी’ फीचर पेश करने के एक साल बाद आया है, जिसने वायरल स्टूडियो घिबली-शैली एआई इमेज ट्रेंड को शुरू किया।

हालाँकि, OpenAI भी कथित तौर पर एक व्यापक रणनीतिक रीसेट के दौर से गुजर रहा है, जो उद्यम उत्पादों की ओर प्रतिभा और कंप्यूटिंग संसाधनों को पुनर्निर्देशित करते हुए प्रयोगात्मक साइड परियोजनाओं पर प्लग खींच रहा है। एक आश्चर्यजनक कदम में, कंपनी ने अपने लोकप्रिय एआई वीडियो-जेनरेशन टूल सोरा को जनता के लिए जारी करने के छह महीने बाद ही बंद कर दिया।

इस संदर्भ में, इंडियन एक्सप्रेस सैन फ्रांसिस्को स्थित टीम के सदस्यों के साथ बैठे, जिन्होंने इमेजेज 2.0 का निर्माण किया, यह समझने के लिए कि नवीनतम मॉडल वास्तव में पिछले संस्करणों के मुकाबले एक कदम बदलाव है और इससे भी महत्वपूर्ण बात यह है कि इसे भारत जैसे बहुभाषी, सांस्कृतिक रूप से विविध बाजारों के लिए कैसे दोहराया गया – एक ऐसा दृष्टिकोण जो गोद लेने और उपयोगकर्ता जुड़ाव के मामले में लाभदायक प्रतीत होता है।

ओपनएआई के एक शोध वैज्ञानिक बोयुआन चेन ने कहा, “पहले, मॉडल मूल्यांकन सहित हमारा अधिकांश काम अंग्रेजी में किया जाता था। हमारे मॉडलों को भी कई विवरणों के साथ संघर्ष करना पड़ता था, खासकर एशियाई भाषाओं में। चीनी, जापानी, कोरियाई, हिंदी और अन्य भाषाओं में, अंग्रेजी में सिर्फ 26 अक्षरों की तुलना में हजारों अक्षर हैं।”

“हालांकि, इस बार, हमने यह सुनिश्चित करने में बहुत समय बिताया कि दुनिया भर की संस्कृतियाँ हमारी आंतरिक पुनरावृत्ति प्रक्रिया में शामिल थीं। जब भी हमने देखा कि कोई भाषा अच्छा प्रदर्शन नहीं कर रही है, तो हमने व्यापक सांस्कृतिक और भाषाई कवरेज सुनिश्चित करने के लिए बहुत अधिक डेटा जोड़ा,” चेन ने समझाया।

चैटजीपीटी इमेजेज 2.0 के साथ, ओपनएआई ने कहा कि उसने गैर-लैटिन टेक्स्ट रेंडरिंग में महत्वपूर्ण उपलब्धि हासिल की है, खासकर जापानी, कोरियाई, चीनी, हिंदी और बंगाली में। कहा जाता है कि मॉडल की बहुभाषी समझ सरल अनुवाद से आगे जाती है, जहां भाषा पोस्टर, कॉमिक्स, आरेख इत्यादि जैसे दृश्य आउटपुट में अंतर्निहित होती है।

इस विज्ञापन के नीचे कहानी जारी है

ओपनएआई के उत्पाद प्रबंधक अभि मुछाल ने मॉडल के भारत-विशिष्ट यथार्थवाद का एक और उदाहरण पेश किया। “पिछले मॉडल में, यदि आपने इसे भारत में एक शहर का दृश्य बनाने के लिए प्रेरित किया, तो इसमें बिल्कुल भी भीड़ नहीं होगी। हालांकि यह मॉडल सही नहीं है, अब आप एक यथार्थवादी प्रतिनिधित्व देख सकते हैं जहां रिक्शा बाएं और दाएं चल रहे हैं, और बहुत सारे लोग हैं, हलचल है,” उन्होंने कहा।

बहुभाषी क्षमताओं से परे, इमेजेज 2.0 में 2K रिज़ॉल्यूशन तक के समर्थन के साथ, बहुत अधिक गुणवत्ता में पहलू अनुपात की एक विस्तृत श्रृंखला उत्पन्न करने की क्षमता है, और कहा जाता है कि यह दृश्य शैलियों की एक विस्तृत श्रृंखला में बेहतर निष्ठा प्रदर्शित करता है।

बहुभाषी छवि निर्माण की चुनौती

हाल ही में 2024 में, DALL-E 3 जैसे टेक्स्ट-टू-इमेज जेनरेटर छवियों के अंदर शब्दों को सटीक रूप से लिखने के लिए संघर्ष कर रहे थे। क्योंकि प्रसार मॉडल शोर से पिक्सेल का पुनर्निर्माण करके छवियां उत्पन्न करते हैं, प्रशिक्षण के दौरान छोटे पाठ तत्वों पर कम ध्यान दिया गया। विभिन्न भाषाओं में आउटपुट के संबंध में मामला और अधिक जटिल हो गया।

लेकिन वह सीमा अब काफी हद तक कुख्यातों की राह पर चली गई है ‘अतिरिक्त उंगलियों’ की समस्या जिसने पहले के छवि जनरेटरों को परेशान किया था।

इस विज्ञापन के नीचे कहानी जारी है

ओपनएआई ने इसे कैसे हासिल किया, इसका विवरण साझा करने से इनकार करते हुए, चेन ने कहा कि कुंजी मॉडल को उपयोगकर्ताओं के निर्देशों का बेहतर ढंग से पालन करने के लिए प्रशिक्षित करना था। उन्होंने कहा, “इस इमेज-जेनरेशन मॉडल के साथ, हम चाहते थे कि यह उपयोगकर्ता के इरादे का पालन करे। इसलिए हमने इसे दोनों प्रकार के डेटा, सार्वजनिक रूप से उपलब्ध कैज़ुअल डेटा और स्टूडियो-शैली छवियों पर प्रशिक्षित किया।”

उन्होंने आगे कहा, “हमने यह सुनिश्चित किया कि मॉडल केवल अच्छी दिखने वाली छवियां पेश करने के बजाय वही अनुसरण करे जो लोग वास्तव में चाहते हैं।”

ओपनएआई अपने टेक्स्ट-आधारित चैटबॉट्स को बेहतर बनाने के लिए उपयोग की जाने वाली समान प्रगति को लागू करके टेक्स्ट को सटीक रूप से प्रस्तुत करने की मॉडल की क्षमता में सुधार करने में सक्षम था। “यह चैटजीपीटी में टेक्स्ट इंटेलिजेंस के समान है। संकेत के आधार पर, यह रोबोटिक या अधिक स्वाभाविक रूप से और संवादात्मक रूप से प्रतिक्रिया दे सकता है। यही विचार यहां भी लागू होता है,” चेन ने कहा।

इमेजेज 2.0 ओपनएआई का पहला इमेज जेनरेशन मॉडल भी है जो इसके रीजनिंग मॉडल के शीर्ष पर बनाया गया है और इसमें प्रासंगिक जानकारी खोजने के लिए वेब का उपयोग करने की क्षमता है। मुच्छल के अनुसार, इसमें दुनिया के बारे में बहुत अधिक नवीनतम ज्ञान है, और छवियाँ 1.5 की तुलना में उस संदर्भ को समझने की अधिक संभावना है।

इस विज्ञापन के नीचे कहानी जारी है

चेन के अनुसार, एआई-जनित छवियों में गलत टेक्स्ट प्लेसमेंट भी अतीत की समस्या है।

अप्रत्याशित तरीके से भारतीय इमेजेज 2.0 का उपयोग करते हैं

यह कहते हुए कि भारतीय लगातार छवि निर्माण के सबसे शौकीन उपयोगकर्ताओं में से एक रहे हैं, मुच्छल ने कहा, “हम भारत में गोद लेने के स्तर को देखकर बहुत खुश थे, लेकिन संख्याओं से अधिक, जिस चीज ने मुझे सबसे ज्यादा आश्चर्यचकित किया वह उपयोग के मामलों की विविधता थी।”

उन्होंने यह भी कहा कि उपयोग के सभी रुझान फोटोरिअलिस्टिक आउटपुट उत्पन्न करने से संबंधित नहीं हैं, जो चैटजीपीटी से दशकों पहले माइक्रोसॉफ्ट पेंट पर किए गए अच्छे चित्रों को स्क्रिबली चित्रों में बदलने के लिए कहने की नवीनतम प्रवृत्ति की ओर इशारा करते हैं।

यह पूछे जाने पर कि क्या वायरल एआई छवि प्रवृत्तियों को जानबूझकर ओपनएआई द्वारा आकार दिया गया है या उपयोगकर्ता के व्यवहार से व्यवस्थित रूप से संचालित किया गया है, मुच्छल ने कहा कि यह दोनों का संयोजन था: “हम उपयोग के मामलों का एक प्रतिनिधि सेट चुनने का प्रयास करते हैं जहां हम जानते हैं कि या तो मॉडल ने अतीत में इसके साथ संघर्ष किया है या जिन क्षेत्रों में हम सुधार करना चाहते हैं, और हम उन पर सुधार करने का प्रयास करते हैं। लेकिन ईमानदारी से कहूं तो, वायरल होने वाली बहुत सी चीजें हमारे लिए अप्रत्याशित भी हैं।”

इस विज्ञापन के नीचे कहानी जारी है

ओपनएआई के अधिकारियों ने यह भी कहा कि भारत में कुछ सबसे अप्रत्याशित रुझानों में एआई-जनरेटेड हेयर-कलर पूर्वावलोकन, ‘यंगर मी’ पोर्ट्रेट और वाई2के-शैली रोमांटिक पोर्ट्रेट शामिल हैं।

एआई छवि जनरेटर को उद्यम द्वारा अपनाने पर, मुच्छल ने कहा, “अतीत में, मॉडल को निर्देशों का सटीक रूप से पालन करने में कठिनाई होती थी, जिससे उपयोगकर्ताओं के लिए इसे व्यावसायिक उपयोग के मामले में उपयोग करना बहुत कठिन हो जाता था।”

उन्होंने आगे कहा, “लेकिन अब हमने इमेजेज 2.0 के साथ जो देखा है वह न केवल व्यक्तिगत उपयोग के मामले हैं, बल्कि उद्यम की भारी मांग भी है क्योंकि अब आप रचनात्मक वर्कफ़्लो को बहुत तेज़ी से आगे बढ़ाने में सक्षम हैं।”

सुरक्षा, वॉटरमार्क और डीपफेक जोखिम

इमेजेज 2.0 सूक्ष्म तत्वों को उत्पन्न करने में भी सक्षम है, जिसमें छोटी खामियां भी शामिल हैं जो इसके दृश्यों में यथार्थवाद जोड़ती हैं।

इस विज्ञापन के नीचे कहानी जारी है

गलत सूचना फैलाने में फोटोरिअलिस्टिक आउटपुट के खतरों के बारे में पूछे जाने पर, मुच्छल ने कहा कि ओपनएआई उपयोगकर्ताओं की रचनात्मक स्वतंत्रता और उपयोगकर्ता सुरक्षा और पारदर्शिता के बीच एक निरंतर संतुलन बनाना चाहता है। उन्होंने कहा, “कॉपीराइट उल्लंघन के संबंध में हमारे पास बहुत उच्च मानक हैं, और हम सुनिश्चित करते हैं कि उन क्षेत्रों में कोई दुरुपयोग न हो। एक चीज जिसका हम गहराई से ध्यान रखते हैं वह यह सुनिश्चित करना है कि आउटपुट में कुछ भी भ्रामक या नकल करने वाला न हो।”

ChatGPT-जनरेटेड छवियां खुले C2PA मानक का समर्थन करती हैं जो मेटाडेटा में एक स्पष्ट संकेत जोड़ती है कि एक छवि AI द्वारा उत्पन्न की गई थी।

इस सप्ताह की शुरुआत में, इसने SynthID नामक एक अदृश्य वॉटरमार्क को शामिल करने के लिए Google के साथ साझेदारी की भी घोषणा की। लेकिन मुच्छल के अनुसार, एआई-जनरेटेड छवियों में दृश्यमान वॉटरमार्क नहीं होता है, ताकि आउटपुट खराब न हो।

जब उनसे भारत सरकार पर टिप्पणी मांगी गई हाल ही में अधिसूचित AI लेबलिंग नियम, मुच्छल ने कहा, जिसके लिए सोशल मीडिया प्लेटफॉर्मों को एआई-जनित सामग्री पर एक प्रमुख लेबल संलग्न करने की आवश्यकता है, “हमारा मानना ​​​​है कि सिस्टम को हितधारकों के सहयोग से बनाया जाना चाहिए।” […] हम जो कुछ भी कर रहे हैं उसे हमने सरकारी हितधारकों के साथ साझा किया है, उनके इनपुट को शामिल करना जारी रखा है, और उपयोगकर्ताओं को नियंत्रण देने और सरकारों द्वारा निर्धारित विश्वास और सुरक्षा अपेक्षाओं को पूरा करने के बीच सही संतुलन खोजने के लिए काम कर रहे हैं।





Source link

Exit mobile version