ओपनएआई ने 16 दिसंबर को फ्रंटियरसाइंस की घोषणा की, जो भौतिकी, रसायन विज्ञान और जीव विज्ञान में विशेषज्ञ स्तर के वैज्ञानिक तर्क पर कृत्रिम बुद्धिमत्ता प्रणालियों का मूल्यांकन करने के लिए डिज़ाइन किया गया एक नया बेंचमार्क है, क्योंकि एआई मॉडल तेजी से वास्तविक वैज्ञानिक अनुसंधान का समर्थन करने की अपनी क्षमता प्रदर्शित कर रहे हैं।
कंपनी ने कहा कि तर्क वैज्ञानिक कार्य के केंद्र में है, जिसमें तथ्यात्मक स्मरण से परे परिकल्पना निर्माण, परीक्षण, शोधन और अंतर-विषयक संश्लेषण शामिल है। जैसे-जैसे AI सिस्टम अधिक सक्षम होते जा रहे हैं, ओपनएआई उन्होंने कहा कि मुख्य सवाल यह है कि वैज्ञानिक खोज में सार्थक योगदान देने के लिए वे कितनी गहराई से तर्क कर सकते हैं।
वास्तविक शोध में एआई मॉडल का तेजी से उपयोग हो रहा है
पिछले वर्ष के दौरान, OpenAI के मॉडल अंतर्राष्ट्रीय गणित ओलंपियाड और सूचना विज्ञान में अंतर्राष्ट्रीय ओलंपियाड में स्वर्ण पदक स्तर के प्रदर्शन सहित प्रमुख मील के पत्थर तक पहुंच गए हैं। साथ ही, वैज्ञानिक कार्यप्रवाह में तेजी लाने के लिए शोधकर्ताओं द्वारा जीपीटी-5 जैसी उन्नत प्रणालियों का पहले से ही उपयोग किया जा रहा है।
के अनुसार ओपनएआईवैज्ञानिक इन मॉडलों को अंतर-विषयक साहित्य खोज, बहुभाषी शोध समीक्षा और जटिल गणितीय प्रमाण जैसे कार्यों के लिए तैनात कर रहे हैं। कई मामलों में, जो काम पहले कई दिनों या हफ्तों में पूरा होता था, वह अब घंटों में पूरा हो सकता है।
इस प्रगति को OpenAI के नवंबर 2025 के पेपर, GPT-5 के साथ प्रारंभिक विज्ञान त्वरण प्रयोगों में विस्तृत किया गया था, जिसमें शुरुआती सबूत प्रस्तुत किए गए थे कि GPT-5 वैज्ञानिक वर्कफ़्लो को काफी तेज़ कर सकता है।
फ्रंटियरसाइंस क्यों बनाया गया?
ओपनएआई कहा कि जैसे-जैसे मॉडलों की तर्कशक्ति और ज्ञान क्षमताएं बढ़ती हैं, मौजूदा वैज्ञानिक मानक अब पर्याप्त नहीं रह गए हैं। कई पूर्व बेंचमार्क बहुविकल्पीय प्रश्नों पर ध्यान केंद्रित करते हैं, संतृप्त हो गए हैं, या वास्तविक वैज्ञानिक तर्क पर केंद्रित नहीं हैं।
उदाहरण के लिए, जब नवंबर 2023 में GPQA “Google-प्रूफ़” बेंचमार्क जारी किया गया था, तो GPT-4 ने 39% स्कोर किया था, जो विशेषज्ञ बेसलाइन 70% से काफी कम था। दो साल बाद, GPT-5.2 ने 92% स्कोर किया, जो अधिक चुनौतीपूर्ण मूल्यांकन की आवश्यकता पर प्रकाश डालता है।
फ्रंटियरसाइंस को डोमेन विशेषज्ञों द्वारा लिखित और सत्यापित कठिन, मूल और सार्थक प्रश्नों का उपयोग करके विशेषज्ञ-स्तरीय वैज्ञानिक क्षमताओं को मापकर इस अंतर को भरने के लिए बनाया गया था।
फ्रंटियरसाइंस क्या मापता है
पूर्ण फ्रंटियरसाइंस बेंचमार्क में 700 से अधिक पाठ्य प्रश्न शामिल हैं, जिसमें 160 स्वर्ण-मानक सेट में हैं, जो भौतिकी, रसायन विज्ञान और जीव विज्ञान के उपक्षेत्रों में फैले हुए हैं।
इसे दो ट्रैक में बांटा गया है:
-फ्रंटियरसाइंस-ओलंपियाड:
-100 लघु उत्तरीय प्रश्न
-अंतरराष्ट्रीय विज्ञान ओलंपियाड पदक विजेताओं द्वारा डिज़ाइन किया गया
-बाधित, सैद्धांतिक वैज्ञानिक तर्क पर केंद्रित
-कठिनाई कम से कम अंतरराष्ट्रीय ओलंपियाड प्रतियोगिताओं के बराबर
फ्रंटियरसाइंस-अनुसंधान:
-60 मूल शोध उपकार्य
-पीएचडी स्तर के वैज्ञानिकों द्वारा लिखित
-वास्तविक दुनिया, बहु-चरणीय अनुसंधान चुनौतियों को प्रतिबिंबित करने के लिए डिज़ाइन किया गया
-विस्तृत 10-बिंदु रूब्रिक का उपयोग करके ग्रेड किया गया
प्रत्येक कार्य को विषय-वस्तु विशेषज्ञों द्वारा लिखा और सत्यापित किया गया था। ओलंपियाड योगदानकर्ता कम से कम एक अंतरराष्ट्रीय प्रतियोगिता में पदक विजेता थे, जबकि अनुसंधान योगदानकर्ताओं के पास प्रासंगिक पीएचडी डिग्री थी।
मॉडल के प्रदर्शन को कैसे वर्गीकृत किया जाता है
ओलंपियाड प्रश्नों को संक्षिप्त उत्तरों, जैसे संख्यात्मक मान, अभिव्यक्ति या अस्पष्ट स्ट्रिंग मिलान का उपयोग करके वर्गीकृत किया जाता है, जिससे स्पष्ट सत्यापन की अनुमति मिलती है।
अनुसंधान कार्यों के लिए, OpenAI ने रूब्रिक-आधारित ग्रेडिंग प्रणाली शुरू की। प्रत्येक प्रश्न में कुल 10 अंकों के कई वस्तुनिष्ठ मूल्यांकन योग्य मानदंड शामिल होते हैं, जो अंतिम उत्तर और मध्यवर्ती तर्क चरणों दोनों का मूल्यांकन करते हैं। 10 में से 7 या उससे अधिक का स्कोर सही माना जाता है।
मॉडल-आधारित ग्रेडर (GPT-5) का उपयोग करके प्रतिक्रियाओं का मूल्यांकन किया जाता है। जबकि मानव विशेषज्ञ ग्रेडिंग आदर्श होगी, ओपनएआई ने कहा कि यह इस स्तर पर स्केलेबल नहीं है, इसलिए रूब्रिक्स को एक सत्यापन पाइपलाइन द्वारा समर्थित मॉडल-आधारित प्रणाली द्वारा विश्वसनीय रूप से जांचने के लिए डिज़ाइन किया गया था।
अग्रणी एआई मॉडलों ने कैसा प्रदर्शन किया
ओपनएआई फ्रंटियरसाइंस सहित कई फ्रंटियर एआई मॉडल का मूल्यांकन किया जीपीटी-5.2क्लाउड ओपस 4.5, जेमिनी 3 प्रो, जीपीटी-4ओ, ओपनएआई ओ4-मिनी और ओपनएआई ओ3।
-GPT-5.2 ने फ्रंटियरसाइंस-ओलंपियाड में 77% स्कोर किया
-GPT-5.2 ने फ्रंटियरसाइंस-रिसर्च पर 25% स्कोर किया
-जेमिनी 3 प्रो ने 76% स्कोर के साथ ओलंपियाड ट्रैक पर जीपीटी-5.2 का बारीकी से मिलान किया
ओपनएआई ने कहा कि परिणाम विशेषज्ञ स्तर के तर्क में पर्याप्त प्रगति दिखाते हैं, जबकि सुधार के लिए महत्वपूर्ण गुंजाइश छोड़ते हैं, खासकर ओपन-एंड अनुसंधान कार्यों पर।
ताकतें, सीमाएं और अगले कदम
जबकि फ्रंटियरसाइंस वैज्ञानिक तर्क के मूल्यांकन में एक कदम आगे का प्रतिनिधित्व करता है, ओपनएआई ने प्रमुख सीमाओं को स्वीकार किया है। बेंचमार्क सीमित, विशेषज्ञ-लिखित समस्याओं पर ध्यान केंद्रित करता है और पूरी तरह से यह नहीं दर्शाता है कि विज्ञान को व्यवहार में कैसे संचालित किया जाता है।
विशेष रूप से, यह आकलन नहीं करता है कि मॉडल वास्तव में नवीन परिकल्पनाएँ कैसे उत्पन्न करते हैं, प्रायोगिक प्रणालियों के साथ कैसे काम करते हैं, या वीडियो और भौतिक-विश्व प्रयोगों जैसे मल्टीमॉडल डेटा के साथ कैसे इंटरैक्ट करते हैं।
आगे देखते हुए, ओपनएआई ने कहा कि वैज्ञानिक तर्क में प्रगति मजबूत सामान्य प्रयोजन तर्क प्रणालियों और वैज्ञानिक क्षमताओं में लक्षित सुधार दोनों से आएगी। फ्रंटियरसाइंस कई उपकरणों में से एक है, और कंपनी बेंचमार्क को नए डोमेन में विस्तारित करने और इसे वास्तविक दुनिया के मूल्यांकन के साथ जोड़ने की योजना बना रही है।
अंततः, ओपनएआई ने कहा, एआई के वैज्ञानिक मूल्य का सबसे महत्वपूर्ण उपाय नई खोजें होंगी जो इसे उत्पन्न करने में मदद करती हैं – और फ्रंटियरसाइंस को उस क्षमता के शुरुआती संकेतक के रूप में काम करने के लिए डिज़ाइन किया गया है।
चाबी छीनना:
-ओपनएआई ने भौतिकी, रसायन विज्ञान और जीव विज्ञान में विशेषज्ञ स्तर के वैज्ञानिक तर्क पर एआई का परीक्षण करने के लिए फ्रंटियर साइंस लॉन्च किया।
-ध्यान तर्क पर है, याद करने पर नहीं, जिसमें परिकल्पना निर्माण, परीक्षण और अंतर-विषयक सोच शामिल है।
-जीपीटी-5 जैसे एआई मॉडल पहले से ही अनुसंधान में तेजी ला रहे हैं, कार्यों को हफ्तों से घटाकर घंटों में कर रहे हैं।
-मौजूदा विज्ञान मानक अब पर्याप्त नहीं हैं, जिससे कठिन, विशेषज्ञ-लिखित मूल्यांकन की आवश्यकता बढ़ गई है।
-फ्रंटियरसाइंस के दो ट्रैक हैं: ओलंपियाड (सैद्धांतिक तर्क) और रिसर्च (वास्तविक दुनिया, बहु-चरणीय कार्य)।
-GPT-5.2 ओलंपियाड कार्यों पर 77% और अनुसंधान कार्यों पर 25% स्कोर करके प्रदर्शन में अग्रणी है।