चैटजीपीटी जीपीटी-5.5 बनाम क्लाउड ओपस 4.7 बनाम जेमिनी 3.1 प्रो: ओपनएआई का नवीनतम मॉडल प्रतिद्वंद्वियों से कैसे तुलना करता है?

Vikas Halpati

4 hours ago

ओपनएआई ने एंथ्रोपिक के हाल ही में लॉन्च किए गए क्लाउड ओपस 4.7 और गूगल के जेमिनी 3.1 प्रो मॉडल को टक्कर देने के उद्देश्य से इस सप्ताह की शुरुआत में अपना जीपीटी-5.5 मॉडल लॉन्च किया था। दावा किया गया है कि नया मॉडल बेहतर एजेंटिक क्षमताओं और वैज्ञानिक अनुसंधान के साथ-साथ कोडिंग क्षमताओं में भारी उछाल के साथ आएगा।

GPT-5.5 की तुलना क्लाउड और जेमिनी से कैसे की जाती है?

OpenAI का GPT-5.5 एजेंटिक उपयोग और दक्षता के लिए बेंचमार्क में सबसे आगे है, लेकिन नया मॉडल अभी भी पीछे है क्लाउड उन बेंचमार्क पर, जिनके लिए सटीक कोडिंग की आवश्यकता होती है, जबकि जेमिनी 3.1 प्रो अकादमिक तर्क के आसपास के क्षेत्रों में बढ़त बनाए रखता है।

चैटजीपीटी कहां ले जाता है

विभिन्न बेंचमार्क में, GPT-5.5 (इसके प्रो संस्करण सहित) ने 15 श्रेणियों में शीर्ष स्थान प्राप्त किया, जबकि क्लाउड ओपस 4.7 ने 7 मूल्यांकनों में नेतृत्व किया, और जेमिनी 3.1 प्रो ने 2 जीत हासिल की।

टर्मिनल-बेंच 2.0 पर, जो जटिल कमांड-लाइन वर्कफ़्लो और टूल समन्वय का परीक्षण करता है, जीपीटी-5.5 ने ओपस 4.7 (69.4%) से आगे, 82.7% की सटीकता हासिल की और मिथुन 3.1 प्रो (68.5%).

यह प्रवृत्ति उन बेंचमार्क में जारी है जो पेशेवर ज्ञान कार्य और स्वायत्त कंप्यूटर संचालन को मापते हैं।

जीडीपीवल बेंचमार्क पर, जो विभिन्न व्यवसायों में अच्छी तरह से निर्दिष्ट कार्य का उत्पादन करने के लिए एक मॉडल की क्षमता को मापता है, जीपीटी-5.5 ने 84.9% स्कोर किया, जो क्लाउड ओपस 4.7 (80.3%) और जेमिनी 3.1 प्रो (67.3%) दोनों से आगे निकल गया।

जब वास्तविक कंप्यूटर को स्वतंत्र रूप से संचालित करने की बात आती है, जीपीटी-5.5 78.7% स्कोर के साथ ओएसवर्ल्ड-सत्यापित पर प्रतिस्पर्धा में मामूली अंतर से आगे आया, जो कि 78.0% के साथ क्लाउड ओपस 4.7 से थोड़ा ही आगे है।

बेंचमार्क (श्रेणी)	जीपीटी-5.5	जीपीटी-5.5 प्रो	क्लाउड ओपस 4.7	मिथुन 3.1 प्रो
टर्मिनल-बेंच 2.0 (एजेंट कोडिंग)	82.7%	–	69.4%	68.5%
SWE-बेंच प्रो (वास्तविक दुनिया कोडिंग)	58.6%	–	64.3%	54.2%
जीडीपीवल (व्यावसायिक ज्ञान)	84.9%	82.3%	80.3%	67.3%
ओएसवर्ल्ड-सत्यापित (कंप्यूटर उपयोग)	78.7%	–	78.0%	–
ब्राउजकॉम्प (उपकरण उपयोग)	84.4%	90.1%	79.3%	85.9%
फ्रंटियरमैथ टियर 1-3 (शैक्षणिक गणित)	51.7%	52.4%	43.8%	36.9%
फ्रंटियरमैथ टियर 4 (उन्नत गणित)	35.4%	39.6%	22.9%	16.7%
जीपीक्यूए हीरा (विशेषज्ञ तर्क)	93.6%	–	94.2%	94.3%
एआरसी-एजीआई-1 (अमूर्त तर्क)	95.0%	–	93.5%	98.0%
साइबरजिम (साइबर सुरक्षा)	81.8%	–	73.1%	–

जहां क्लाउड ओपस 4.7 अग्रणी है

इस बीच, एंथ्रोपिक का क्लाउड ओपस 4.7 अभी भी उन क्षेत्रों में चैटजीपीटी और जेमिनी से आगे है, जहां वास्तविक दुनिया कोडिंग और जटिल डेटा पुनर्प्राप्ति की आवश्यकता होती है।

क्लाउड ने SWE-बेंच प्रो पर अपना प्रभुत्व बनाए रखा, जो वास्तविक दुनिया के GitHub मुद्दों को हल करने के लिए एक महत्वपूर्ण बेंचमार्क है। जीपीटी-5.5 के 58.6% और जेमिनी के 54.2% की तुलना में ओपस 4.7 ने बेंचमार्क पर 64.3% स्कोर किया।
इसने बेहतर प्रदर्शन भी किया ओपनएआई फाइनेंसएजेंट v1.1 (64.4%), एमसीपी एटलस (79.1%), और प्रतिष्ठित मानवता की अंतिम परीक्षा (46.9%) पर।
इसके अतिरिक्त, क्लॉड ओपस 4.7 ने ग्राफवॉक लंबे संदर्भ मूल्यांकन में तीन जीत हासिल की, बीएफएस 256k, माता-पिता 256k, और माता-पिता 1मिलिट्री श्रेणियों में GPT-5.5 को हराया।

जहां जेमिनी 3.1 प्रो अग्रणी है

जबकि गूगल का मॉडल क्लाउड और से पिछड़ गया मिथुन एजेंटिक टूल के उपयोग और कोडिंग में, यह अभी भी उन बेंचमार्क में अग्रणी बना हुआ है जिनके लिए उच्च-स्तरीय तर्क की आवश्यकता होती है।

जेमिनी 3.1 प्रो ने स्नातक स्तर के जीपीक्यूए डायमंड बेंचमार्क पर 94.3% स्कोर करते हुए क्लाउड के 94.2% और जीपीटी-5.5 के 93.6% को पछाड़ते हुए प्रतिस्पर्धा में मामूली अंतर से बढ़त बना ली।
इसने ARC-AGI-1 (सत्यापित) पर बेहतर अमूर्त तर्क का प्रदर्शन किया, GPT-5.5 के 95.0% और क्लाउड के 93.5% की तुलना में प्रभावशाली 98.0% हासिल किया।

GPT-5.5 लॉन्च पर नेटिज़न्स की प्रतिक्रिया:

सोशल मीडिया इस बात पर काफी हद तक विभाजित है कि कोडिंग संबंधी कार्यों के लिए GPT-5.5 अंततः क्लाउड से बेहतर है या नहीं। जबकि कुछ उपयोगकर्ताओं ने नोट किया है कि मॉडल अपने पूर्ववर्ती की तुलना में अधिक सहज और विशेषज्ञ जैसा लगता है और कोडेक्स के माध्यम से एक-शॉट में संपूर्ण ऐप्स बनाने की क्षमता रखता है।
हालाँकि, अन्य लोग कुछ उपयोगकर्ताओं से उतने प्रभावित नहीं थे, जब उन्होंने देखा कि मॉडल मामूली सुधारों के साथ GPT-5.4 जैसा लगता है।

“मैं कहूंगा कि शुद्ध कोडिंग गुणवत्ता के मामले में यह कुछ हद तक ओपस 4.7 से मेल खाता है; हालांकि बेहतर गति और बहुत अधिक उदार कोडेक्स इसे जीत दिलाता है।” Reddit पर एक उपयोगकर्ता ने लिखा

“जीपीटी-5.4 ने पहले से ही अच्छा काम किया है, खासकर कोडिंग के लिए, लेकिन लेखन वह हिस्सा था जहां मुझे अभी भी कुछ कमजोरी महसूस होती थी। 5.5 के साथ, यह काफी बेहतर लगता है। प्रतिक्रियाओं में “जीपीटी गंध” कम है और पढ़ने में आसान है, क्लाउड या जेमिनी जिस तरह से चीजों को समझाते हैं, उसके करीब है।” दूसरा लिखा

“मुख्य समस्या अभी भी है: मॉडल वास्तव में तर्क नहीं करता है, खुद को सत्यापित नहीं करता है, और लगातार अपनी गलतियों को नहीं पकड़ता है। यह अक्सर स्पष्ट त्रुटियों को अनदेखा करता है, विरोधाभासों को अनदेखा करता है, महत्वपूर्ण विवरण खो देता है, और केवल वही ठीक करता है जो आप सीधे इंगित करते हैं।” फिर भी एक और उपयोगकर्ता जोड़ा गया

Source link