ओपनएआई ने एंथ्रोपिक के हाल ही में लॉन्च किए गए क्लाउड ओपस 4.7 और गूगल के जेमिनी 3.1 प्रो मॉडल को टक्कर देने के उद्देश्य से इस सप्ताह की शुरुआत में अपना जीपीटी-5.5 मॉडल लॉन्च किया था। दावा किया गया है कि नया मॉडल बेहतर एजेंटिक क्षमताओं और वैज्ञानिक अनुसंधान के साथ-साथ कोडिंग क्षमताओं में भारी उछाल के साथ आएगा।
GPT-5.5 की तुलना क्लाउड और जेमिनी से कैसे की जाती है?
OpenAI का GPT-5.5 एजेंटिक उपयोग और दक्षता के लिए बेंचमार्क में सबसे आगे है, लेकिन नया मॉडल अभी भी पीछे है क्लाउड उन बेंचमार्क पर, जिनके लिए सटीक कोडिंग की आवश्यकता होती है, जबकि जेमिनी 3.1 प्रो अकादमिक तर्क के आसपास के क्षेत्रों में बढ़त बनाए रखता है।
चैटजीपीटी कहां ले जाता है
विभिन्न बेंचमार्क में, GPT-5.5 (इसके प्रो संस्करण सहित) ने 15 श्रेणियों में शीर्ष स्थान प्राप्त किया, जबकि क्लाउड ओपस 4.7 ने 7 मूल्यांकनों में नेतृत्व किया, और जेमिनी 3.1 प्रो ने 2 जीत हासिल की।
टर्मिनल-बेंच 2.0 पर, जो जटिल कमांड-लाइन वर्कफ़्लो और टूल समन्वय का परीक्षण करता है, जीपीटी-5.5 ने ओपस 4.7 (69.4%) से आगे, 82.7% की सटीकता हासिल की और मिथुन 3.1 प्रो (68.5%).
यह प्रवृत्ति उन बेंचमार्क में जारी है जो पेशेवर ज्ञान कार्य और स्वायत्त कंप्यूटर संचालन को मापते हैं।
जीडीपीवल बेंचमार्क पर, जो विभिन्न व्यवसायों में अच्छी तरह से निर्दिष्ट कार्य का उत्पादन करने के लिए एक मॉडल की क्षमता को मापता है, जीपीटी-5.5 ने 84.9% स्कोर किया, जो क्लाउड ओपस 4.7 (80.3%) और जेमिनी 3.1 प्रो (67.3%) दोनों से आगे निकल गया।
जब वास्तविक कंप्यूटर को स्वतंत्र रूप से संचालित करने की बात आती है, जीपीटी-5.5 78.7% स्कोर के साथ ओएसवर्ल्ड-सत्यापित पर प्रतिस्पर्धा में मामूली अंतर से आगे आया, जो कि 78.0% के साथ क्लाउड ओपस 4.7 से थोड़ा ही आगे है।
| बेंचमार्क (श्रेणी) | जीपीटी-5.5 | जीपीटी-5.5 प्रो | क्लाउड ओपस 4.7 | मिथुन 3.1 प्रो |
|---|---|---|---|---|
| टर्मिनल-बेंच 2.0 (एजेंट कोडिंग) | 82.7% | – | 69.4% | 68.5% |
| SWE-बेंच प्रो (वास्तविक दुनिया कोडिंग) | 58.6% | – | 64.3% | 54.2% |
| जीडीपीवल (व्यावसायिक ज्ञान) | 84.9% | 82.3% | 80.3% | 67.3% |
| ओएसवर्ल्ड-सत्यापित (कंप्यूटर उपयोग) | 78.7% | – | 78.0% | – |
| ब्राउजकॉम्प (उपकरण उपयोग) | 84.4% | 90.1% | 79.3% | 85.9% |
| फ्रंटियरमैथ टियर 1-3 (शैक्षणिक गणित) | 51.7% | 52.4% | 43.8% | 36.9% |
| फ्रंटियरमैथ टियर 4 (उन्नत गणित) | 35.4% | 39.6% | 22.9% | 16.7% |
| जीपीक्यूए हीरा (विशेषज्ञ तर्क) | 93.6% | – | 94.2% | 94.3% |
| एआरसी-एजीआई-1 (अमूर्त तर्क) | 95.0% | – | 93.5% | 98.0% |
| साइबरजिम (साइबर सुरक्षा) | 81.8% | – | 73.1% | – |
जहां क्लाउड ओपस 4.7 अग्रणी है
इस बीच, एंथ्रोपिक का क्लाउड ओपस 4.7 अभी भी उन क्षेत्रों में चैटजीपीटी और जेमिनी से आगे है, जहां वास्तविक दुनिया कोडिंग और जटिल डेटा पुनर्प्राप्ति की आवश्यकता होती है।
- क्लाउड ने SWE-बेंच प्रो पर अपना प्रभुत्व बनाए रखा, जो वास्तविक दुनिया के GitHub मुद्दों को हल करने के लिए एक महत्वपूर्ण बेंचमार्क है। जीपीटी-5.5 के 58.6% और जेमिनी के 54.2% की तुलना में ओपस 4.7 ने बेंचमार्क पर 64.3% स्कोर किया।
- इसने बेहतर प्रदर्शन भी किया ओपनएआई फाइनेंसएजेंट v1.1 (64.4%), एमसीपी एटलस (79.1%), और प्रतिष्ठित मानवता की अंतिम परीक्षा (46.9%) पर।
- इसके अतिरिक्त, क्लॉड ओपस 4.7 ने ग्राफवॉक लंबे संदर्भ मूल्यांकन में तीन जीत हासिल की, बीएफएस 256k, माता-पिता 256k, और माता-पिता 1मिलिट्री श्रेणियों में GPT-5.5 को हराया।
जहां जेमिनी 3.1 प्रो अग्रणी है
जबकि गूगल का मॉडल क्लाउड और से पिछड़ गया मिथुन एजेंटिक टूल के उपयोग और कोडिंग में, यह अभी भी उन बेंचमार्क में अग्रणी बना हुआ है जिनके लिए उच्च-स्तरीय तर्क की आवश्यकता होती है।
- जेमिनी 3.1 प्रो ने स्नातक स्तर के जीपीक्यूए डायमंड बेंचमार्क पर 94.3% स्कोर करते हुए क्लाउड के 94.2% और जीपीटी-5.5 के 93.6% को पछाड़ते हुए प्रतिस्पर्धा में मामूली अंतर से बढ़त बना ली।
- इसने ARC-AGI-1 (सत्यापित) पर बेहतर अमूर्त तर्क का प्रदर्शन किया, GPT-5.5 के 95.0% और क्लाउड के 93.5% की तुलना में प्रभावशाली 98.0% हासिल किया।
GPT-5.5 लॉन्च पर नेटिज़न्स की प्रतिक्रिया:
सोशल मीडिया इस बात पर काफी हद तक विभाजित है कि कोडिंग संबंधी कार्यों के लिए GPT-5.5 अंततः क्लाउड से बेहतर है या नहीं। जबकि कुछ उपयोगकर्ताओं ने नोट किया है कि मॉडल अपने पूर्ववर्ती की तुलना में अधिक सहज और विशेषज्ञ जैसा लगता है और कोडेक्स के माध्यम से एक-शॉट में संपूर्ण ऐप्स बनाने की क्षमता रखता है।
हालाँकि, अन्य लोग कुछ उपयोगकर्ताओं से उतने प्रभावित नहीं थे, जब उन्होंने देखा कि मॉडल मामूली सुधारों के साथ GPT-5.4 जैसा लगता है।
“मैं कहूंगा कि शुद्ध कोडिंग गुणवत्ता के मामले में यह कुछ हद तक ओपस 4.7 से मेल खाता है; हालांकि बेहतर गति और बहुत अधिक उदार कोडेक्स इसे जीत दिलाता है।” Reddit पर एक उपयोगकर्ता ने लिखा
“जीपीटी-5.4 ने पहले से ही अच्छा काम किया है, खासकर कोडिंग के लिए, लेकिन लेखन वह हिस्सा था जहां मुझे अभी भी कुछ कमजोरी महसूस होती थी। 5.5 के साथ, यह काफी बेहतर लगता है। प्रतिक्रियाओं में “जीपीटी गंध” कम है और पढ़ने में आसान है, क्लाउड या जेमिनी जिस तरह से चीजों को समझाते हैं, उसके करीब है।” दूसरा लिखा
“मुख्य समस्या अभी भी है: मॉडल वास्तव में तर्क नहीं करता है, खुद को सत्यापित नहीं करता है, और लगातार अपनी गलतियों को नहीं पकड़ता है। यह अक्सर स्पष्ट त्रुटियों को अनदेखा करता है, विरोधाभासों को अनदेखा करता है, महत्वपूर्ण विवरण खो देता है, और केवल वही ठीक करता है जो आप सीधे इंगित करते हैं।” फिर भी एक और उपयोगकर्ता जोड़ा गया

