ओपनएआई ने इस सप्ताह अपना नवीनतम इमेज एआई मॉडल, इमेज 2.0 जारी किया, और हालांकि एआई लॉन्च के ढेरों के बीच मॉडल थोड़ा रडार के नीचे चला गया है, यह अभी भी जेमिनी, सीड्रीम और क्वेन को टक्कर देते हुए उपलब्ध सर्वोत्तम एआई फोटो एडिटिंग मॉडल में से एक है।
मैंने तनाव-परीक्षण किया चैटजीपीटी 10 संकेतों का उपयोग करते हुए पिछले कुछ दिनों की छवियाँ 2। यहां बताया गया है कि मॉडल का प्रदर्शन कैसा रहा।
1) हिंदी में वास्तविक जीवन का बिलबोर्ड:
संकेत: “भारत में एक व्यस्त राजमार्ग पर एक फोटोरिअलिस्टिक सड़क के किनारे का बिलबोर्ड, जिसमें स्पष्ट और पूरी तरह से सुपाठ्य हिंदी पाठ है, जिसमें लिखा है: ‘यह एक परीक्षण है – ओपनएआई इमेज मॉडल’, बोल्ड देवनागरी फ़ॉन्ट, प्राकृतिक प्रकाश व्यवस्था, यथार्थवादी छाया, बिलबोर्ड पर मामूली मौसम, कारों और बाइक का गुजरना, डीएसएलआर पर शूट किया गया, 50 मिमी लेंस, उच्च विवरण, कोई पाठ विरूपण नहीं”
2) समय परीक्षण:
“आधुनिक हवाई अड्डे के टर्मिनल में तीन एनालॉग दीवार घड़ियाँ एक साथ लगी हुई हैं। बायीं घड़ी ठीक 10:15 बजे, बीच वाली घड़ी ठीक 02:45 बजे, और दाहिनी घड़ी ठीक 07:30 बजे पढ़ती है। प्रत्येक घड़ी के नीचे एक डिजिटल एलईडी चिन्ह है जो उसके ऊपर एनालॉग घड़ी के समान समय दिखाता है।”
3) वास्तविक जीवन की छवि:
“एक अंधेरे कमरे में लैपटॉप स्क्रीन को देखते हुए किसी के कंधे पर ली गई तस्वीर। स्क्रीन पूरी तरह से सुपाठ्य पायथन कोड के साथ एक कोड संपादक दिखाती है। कोड संरचनात्मक रूप से मान्य होना चाहिए, उचित रूप से इंडेंट किया हुआ, रंग-वाक्यविन्यास हाइलाइट किया जाना चाहिए, और इसमें शून्य अस्पष्ट अक्षर या विदेशी प्रतीक शामिल होने चाहिए।”
4) बाइकर फोटोशूट:
“इस अपलोड छवि को एक मजबूत बाइकर फोटोशूट में बदलें। चेहरे की पहचान अपरिवर्तित रखें। एक चमड़े की जैकेट, मोटरसाइकिल, राजमार्ग पृष्ठभूमि, नाटकीय प्रकाश व्यवस्था, हवा में धूल के कण, सिनेमाई लुक, फोटोरियलिस्टिक जोड़ें”
5) क्लाउड भुजिया:
“एक अव्यवस्थित भारतीय किराना स्टोर रैक के अंदर रखे गए “क्लाउड भुजिया” (क्लाउड भुजिया) के एक पैकेट का एक फोटोरिअलिस्टिक मैक्रो शॉट। पैकेट भारी सिलवटों, तेज सिलवटों और यथार्थवादी प्रतिबिंब और चमक के साथ धातु की पन्नी से बना है।
पैकेट के शीर्ष पर, आधिकारिक क्लाउड एआई लोगो शामिल करें: गोल कोनों वाला एक साफ सफेद आयताकार लेबल, बाईं ओर नारंगी स्टारबर्स्ट आइकन और आधुनिक काले सेन्स-सेरिफ़ फ़ॉन्ट में “क्लाउड” शब्द शामिल है। लोगो को सटीक रूप से प्रस्तुत किया जाना चाहिए, तेज और आनुपातिक रूप से सही होना चाहिए, विरूपण के बिना झुर्रीदार फ़ॉइल सतह पर स्वाभाविक रूप से मुद्रित होना चाहिए।
लोगो के नीचे, बोल्ड देवनागरी टेक्स्ट “क्लोड भुजिया” स्वाभाविक रूप से पैकेजिंग की परतों और घुमावों का पालन करते हुए पूरी तरह से सुपाठ्य होना चाहिए।
6) यथार्थवादी समाचार पत्र कतरन:
“‘(अखबार का नाम)’ अखबार पढ़ते हुए एक व्यक्ति की स्पष्ट तस्वीर। पाठक पहले पन्ने को ध्यान से देख रहा है। पहले पन्ने पर विषय की एक तस्वीर है ([Your Description/Uploaded Image Context]) आश्चर्यचकित होकर देख रहा हूँ। बड़े, यथार्थवादी शीर्षक में लिखा है: ‘छह घंटे तक कैफे में केवल चाय का ऑर्डर देने वाले व्यक्ति को “व्यावसायिक प्रगति को रोकने” के आरोप में गिरफ्तार किया गया। इसके नीचे, छोटे उपपाठ में लिखा है: ‘कर्मचारियों का दावा है कि उन्होंने केवल “बस एक और” कहा। प्रिंट के वास्तविक रूप से प्रस्तुत कॉलम नीचे हैं। कागज़ में हल्की सी सिलवटें हैं।”
7) वायरल टीवी क्लिपिंग:
“इस अपलोड छवि को एक भारतीय समाचार चैनल प्रसारण के स्क्रीनशॉट में बदलें। इस चेहरे को मुख्य विषय के रूप में उपयोग करें। टिकर टेक्स्ट जोड़ें: ‘ब्रेकिंग: आदमी का दावा है कि वह केवल चाय और पारले-जी पर जीवित रह सकता है।’ चैनल लोगो, स्क्रॉलिंग टिकर, स्टूडियो लाइटिंग, अल्ट्रा-यथार्थवादी शामिल करें।”
8) ट्रेन परीक्षण
“रात में एक भारतीय रेलवे स्टेशन (उदाहरण के लिए, सीएसएमटी) के अंदर। एक बड़ा, चमकता हुआ लाल एलईडी डॉट-मैट्रिक्स डिस्प्ले बोर्ड छत से लटका हुआ है। बोर्ड को ‘पंजाब मेल एक्सप्रेस’ (पंजाब मेल एक्सप्रेस) को पूर्ण हिंदी पाठ में प्रदर्शित करना चाहिए। पाठ को पूरी तरह से अलग-अलग, चमकदार लाल एलईडी डॉट्स से प्रस्तुत किया जाना चाहिए, न कि एक चिकनी फ़ॉन्ट से।”
9) भारतीय समाज परीक्षण:
“एनसीआर में एक भव्य, विशाल आवासीय सोसायटी का गेट। बैरिकेड पर एक घबराया हुआ ब्लिंकिट डिलीवरी लड़का अपने स्कूटर पर बैठा है। सुरक्षा गार्ड आक्रामक रूप से लोहे के गेट से बंधे एक विशाल, सस्ते फ्लेक्स बैनर की ओर इशारा कर रहा है। बैनर पर स्पष्ट रूप से देवनागरी और अंग्रेजी में लिखा है: “ज़ोमैटो, स्विगी, ब्लिंकिट की अनुमति है। मायगेट अनुमोदन के बिना रिश्तेदारों को अनुमति नहीं है।” बैनर में यथार्थवादी तह और ज़िप-टाई होनी चाहिए जो इसे गेट से जोड़े रखे।”
10) इंडियन रोड शॉट
“एक व्यस्त दिल्ली एनसीआर राजमार्ग पर एक सिनेमाई शॉट। एक मानक हरे और पीले रंग का भारतीय बजाज ऑटो-रिक्शा तेजी से चला रहा है। यह शारीरिक रूप से ठीक 15 लोगों को ले जा रहा है। लोग किनारे से लटके हुए हैं, ड्राइवर के बगल में बैठे हैं, और दो लोग कैनवास की छत पर आराम से बैठे हैं। ऑटो के पीछे एक पूरी तरह से चित्रित वाक्यांश में स्टाइलिश हिंदी में “माँ की दुआ” लिखा हुआ है। ऑटो के पिछले पहिये और सस्पेंशन अत्यधिक शारीरिक भार के तहत कुचले हुए और नीचे झुके हुए दिखने चाहिए।”
मॉडल में कहां कमी है इस पर कुछ विचार:
जबकि OpenAI ने Images 2 की गति और गुणवत्ता के साथ काफी प्रगति की है, जहां यह आगे भी महसूस होता है नैनो केला अधिकांश कार्यों में, एक क्षेत्र जहां मॉडल को अभी भी संघर्ष करना पड़ता है वह है छवियों का सटीक संपादन करना, कुछ ऐसा जहां अलीबाबा की क्वेन चमकती है।
इसलिए, मैंने हाल ही में ChatGPT को iPhone 18 Pro सीरीज और iPhone Ultra (Apple फोल्डेबल) के डमी फोन की एक लीक हुई छवि दी, और उन्हें Apple शैली में रंगने के लिए कहा। जबकि चैटबॉट इसे सही रंग देने में कामयाब रहा आईफोन 18 प्रो और प्रो मैक्स ने अपने डिजाइन को बदले बिना, आईफोन अल्ट्रा के डिजाइन को पूरी तरह से बदल दिया, इसे एक सामान्य कैंडीबार फोन में बदल दिया।
इस बारे में पूछे जाने पर, चैटजीपीटी ने कहा, “मैं हर पिक्सेल को संरक्षित करते हुए आपकी सटीक अपलोड की गई छवि को सचमुच कॉपी-पेस्ट या सर्जिकल रूप से संपादित नहीं कर सकता। मैं जिस छवि टूल का उपयोग कर रहा हूं वह हर बार दृश्य को पुन: उत्पन्न करता है।”
इसी तरह, इन छवियों को बनाते समय, मैंने देखा कि जब विभिन्न परिदृश्यों में किसी व्यक्ति की छवि को बदलने के लिए कहा गया तो चैटजीपीटी ने चेहरे की बहुत अच्छी स्थिरता बनाए रखी, जो कि इससे कहीं बेहतर है। मिथुन. हालाँकि, एक बार जब आप ChatGPT को एक ही चैट में दो या तीन बार संपादन करने के लिए कहते हैं, तो यह जल्दी ही नियंत्रण खोना शुरू कर देता है, जिससे अक्सर चेहरे की विशेषताएं खराब हो जाती हैं।