ओपनएआई ने भौतिकी, रसायन विज्ञान, जीव विज्ञान में एआई के विशेषज्ञ-स्तरीय वैज्ञानिक तर्क का परीक्षण करने के लिए फ्रंटियर साइंस की शुरुआत की

ओपनएआई ने 16 दिसंबर को फ्रंटियरसाइंस की घोषणा की, जो भौतिकी, रसायन विज्ञान और जीव विज्ञान में विशेषज्ञ स्तर के वैज्ञानिक तर्क पर कृत्रिम बुद्धिमत्ता प्रणालियों का मूल्यांकन करने के लिए डिज़ाइन किया गया एक नया बेंचमार्क है, क्योंकि एआई मॉडल तेजी से वास्तविक वैज्ञानिक अनुसंधान का समर्थन करने की अपनी क्षमता प्रदर्शित कर रहे हैं।

कंपनी ने कहा कि तर्क वैज्ञानिक कार्य के केंद्र में है, जिसमें तथ्यात्मक स्मरण से परे परिकल्पना निर्माण, परीक्षण, शोधन और अंतर-विषयक संश्लेषण शामिल है। जैसे-जैसे AI सिस्टम अधिक सक्षम होते जा रहे हैं, ओपनएआई उन्होंने कहा कि मुख्य सवाल यह है कि वैज्ञानिक खोज में सार्थक योगदान देने के लिए वे कितनी गहराई से तर्क कर सकते हैं।

वास्तविक शोध में एआई मॉडल का तेजी से उपयोग हो रहा है

पिछले वर्ष के दौरान, OpenAI के मॉडल अंतर्राष्ट्रीय गणित ओलंपियाड और सूचना विज्ञान में अंतर्राष्ट्रीय ओलंपियाड में स्वर्ण पदक स्तर के प्रदर्शन सहित प्रमुख मील के पत्थर तक पहुंच गए हैं। साथ ही, वैज्ञानिक कार्यप्रवाह में तेजी लाने के लिए शोधकर्ताओं द्वारा जीपीटी-5 जैसी उन्नत प्रणालियों का पहले से ही उपयोग किया जा रहा है।

के अनुसार ओपनएआईवैज्ञानिक इन मॉडलों को अंतर-विषयक साहित्य खोज, बहुभाषी शोध समीक्षा और जटिल गणितीय प्रमाण जैसे कार्यों के लिए तैनात कर रहे हैं। कई मामलों में, जो काम पहले कई दिनों या हफ्तों में पूरा होता था, वह अब घंटों में पूरा हो सकता है।

इस प्रगति को OpenAI के नवंबर 2025 के पेपर, GPT-5 के साथ प्रारंभिक विज्ञान त्वरण प्रयोगों में विस्तृत किया गया था, जिसमें शुरुआती सबूत प्रस्तुत किए गए थे कि GPT-5 वैज्ञानिक वर्कफ़्लो को काफी तेज़ कर सकता है।

फ्रंटियरसाइंस क्यों बनाया गया?

ओपनएआई कहा कि जैसे-जैसे मॉडलों की तर्कशक्ति और ज्ञान क्षमताएं बढ़ती हैं, मौजूदा वैज्ञानिक मानक अब पर्याप्त नहीं रह गए हैं। कई पूर्व बेंचमार्क बहुविकल्पीय प्रश्नों पर ध्यान केंद्रित करते हैं, संतृप्त हो गए हैं, या वास्तविक वैज्ञानिक तर्क पर केंद्रित नहीं हैं।

उदाहरण के लिए, जब नवंबर 2023 में GPQA “Google-प्रूफ़” बेंचमार्क जारी किया गया था, तो GPT-4 ने 39% स्कोर किया था, जो विशेषज्ञ बेसलाइन 70% से काफी कम था। दो साल बाद, GPT-5.2 ने 92% स्कोर किया, जो अधिक चुनौतीपूर्ण मूल्यांकन की आवश्यकता पर प्रकाश डालता है।

फ्रंटियरसाइंस को डोमेन विशेषज्ञों द्वारा लिखित और सत्यापित कठिन, मूल और सार्थक प्रश्नों का उपयोग करके विशेषज्ञ-स्तरीय वैज्ञानिक क्षमताओं को मापकर इस अंतर को भरने के लिए बनाया गया था।

फ्रंटियरसाइंस क्या मापता है

पूर्ण फ्रंटियरसाइंस बेंचमार्क में 700 से अधिक पाठ्य प्रश्न शामिल हैं, जिसमें 160 स्वर्ण-मानक सेट में हैं, जो भौतिकी, रसायन विज्ञान और जीव विज्ञान के उपक्षेत्रों में फैले हुए हैं।

इसे दो ट्रैक में बांटा गया है:

-फ्रंटियरसाइंस-ओलंपियाड:

-100 लघु उत्तरीय प्रश्न

-अंतरराष्ट्रीय विज्ञान ओलंपियाड पदक विजेताओं द्वारा डिज़ाइन किया गया

-बाधित, सैद्धांतिक वैज्ञानिक तर्क पर केंद्रित

-कठिनाई कम से कम अंतरराष्ट्रीय ओलंपियाड प्रतियोगिताओं के बराबर

फ्रंटियरसाइंस-अनुसंधान:

-60 मूल शोध उपकार्य

-पीएचडी स्तर के वैज्ञानिकों द्वारा लिखित

-वास्तविक दुनिया, बहु-चरणीय अनुसंधान चुनौतियों को प्रतिबिंबित करने के लिए डिज़ाइन किया गया

-विस्तृत 10-बिंदु रूब्रिक का उपयोग करके ग्रेड किया गया

प्रत्येक कार्य को विषय-वस्तु विशेषज्ञों द्वारा लिखा और सत्यापित किया गया था। ओलंपियाड योगदानकर्ता कम से कम एक अंतरराष्ट्रीय प्रतियोगिता में पदक विजेता थे, जबकि अनुसंधान योगदानकर्ताओं के पास प्रासंगिक पीएचडी डिग्री थी।

मॉडल के प्रदर्शन को कैसे वर्गीकृत किया जाता है

ओलंपियाड प्रश्नों को संक्षिप्त उत्तरों, जैसे संख्यात्मक मान, अभिव्यक्ति या अस्पष्ट स्ट्रिंग मिलान का उपयोग करके वर्गीकृत किया जाता है, जिससे स्पष्ट सत्यापन की अनुमति मिलती है।

अनुसंधान कार्यों के लिए, OpenAI ने रूब्रिक-आधारित ग्रेडिंग प्रणाली शुरू की। प्रत्येक प्रश्न में कुल 10 अंकों के कई वस्तुनिष्ठ मूल्यांकन योग्य मानदंड शामिल होते हैं, जो अंतिम उत्तर और मध्यवर्ती तर्क चरणों दोनों का मूल्यांकन करते हैं। 10 में से 7 या उससे अधिक का स्कोर सही माना जाता है।

मॉडल-आधारित ग्रेडर (GPT-5) का उपयोग करके प्रतिक्रियाओं का मूल्यांकन किया जाता है। जबकि मानव विशेषज्ञ ग्रेडिंग आदर्श होगी, ओपनएआई ने कहा कि यह इस स्तर पर स्केलेबल नहीं है, इसलिए रूब्रिक्स को एक सत्यापन पाइपलाइन द्वारा समर्थित मॉडल-आधारित प्रणाली द्वारा विश्वसनीय रूप से जांचने के लिए डिज़ाइन किया गया था।

अग्रणी एआई मॉडलों ने कैसा प्रदर्शन किया

ओपनएआई फ्रंटियरसाइंस सहित कई फ्रंटियर एआई मॉडल का मूल्यांकन किया जीपीटी-5.2क्लाउड ओपस 4.5, जेमिनी 3 प्रो, जीपीटी-4ओ, ओपनएआई ओ4-मिनी और ओपनएआई ओ3।

-GPT-5.2 ने फ्रंटियरसाइंस-ओलंपियाड में 77% स्कोर किया

-GPT-5.2 ने फ्रंटियरसाइंस-रिसर्च पर 25% स्कोर किया

-जेमिनी 3 प्रो ने 76% स्कोर के साथ ओलंपियाड ट्रैक पर जीपीटी-5.2 का बारीकी से मिलान किया

ओपनएआई ने कहा कि परिणाम विशेषज्ञ स्तर के तर्क में पर्याप्त प्रगति दिखाते हैं, जबकि सुधार के लिए महत्वपूर्ण गुंजाइश छोड़ते हैं, खासकर ओपन-एंड अनुसंधान कार्यों पर।

यह भी पढ़ें | इंस्टाग्राम ने अमेज़न फायर टीवी के लिए समर्पित टेलीविज़न ऐप लॉन्च किया

ताकतें, सीमाएं और अगले कदम

जबकि फ्रंटियरसाइंस वैज्ञानिक तर्क के मूल्यांकन में एक कदम आगे का प्रतिनिधित्व करता है, ओपनएआई ने प्रमुख सीमाओं को स्वीकार किया है। बेंचमार्क सीमित, विशेषज्ञ-लिखित समस्याओं पर ध्यान केंद्रित करता है और पूरी तरह से यह नहीं दर्शाता है कि विज्ञान को व्यवहार में कैसे संचालित किया जाता है।

विशेष रूप से, यह आकलन नहीं करता है कि मॉडल वास्तव में नवीन परिकल्पनाएँ कैसे उत्पन्न करते हैं, प्रायोगिक प्रणालियों के साथ कैसे काम करते हैं, या वीडियो और भौतिक-विश्व प्रयोगों जैसे मल्टीमॉडल डेटा के साथ कैसे इंटरैक्ट करते हैं।

आगे देखते हुए, ओपनएआई ने कहा कि वैज्ञानिक तर्क में प्रगति मजबूत सामान्य प्रयोजन तर्क प्रणालियों और वैज्ञानिक क्षमताओं में लक्षित सुधार दोनों से आएगी। फ्रंटियरसाइंस कई उपकरणों में से एक है, और कंपनी बेंचमार्क को नए डोमेन में विस्तारित करने और इसे वास्तविक दुनिया के मूल्यांकन के साथ जोड़ने की योजना बना रही है।

अंततः, ओपनएआई ने कहा, एआई के वैज्ञानिक मूल्य का सबसे महत्वपूर्ण उपाय नई खोजें होंगी जो इसे उत्पन्न करने में मदद करती हैं – और फ्रंटियरसाइंस को उस क्षमता के शुरुआती संकेतक के रूप में काम करने के लिए डिज़ाइन किया गया है।

यह भी पढ़ें | Adobe ने टेक्स्ट-आधारित सटीक संपादनों के साथ Firefly वीडियो एडिटर लॉन्च किया है

चाबी छीनना:

-ओपनएआई ने भौतिकी, रसायन विज्ञान और जीव विज्ञान में विशेषज्ञ स्तर के वैज्ञानिक तर्क पर एआई का परीक्षण करने के लिए फ्रंटियर साइंस लॉन्च किया।

-ध्यान तर्क पर है, याद करने पर नहीं, जिसमें परिकल्पना निर्माण, परीक्षण और अंतर-विषयक सोच शामिल है।

-जीपीटी-5 जैसे एआई मॉडल पहले से ही अनुसंधान में तेजी ला रहे हैं, कार्यों को हफ्तों से घटाकर घंटों में कर रहे हैं।

-मौजूदा विज्ञान मानक अब पर्याप्त नहीं हैं, जिससे कठिन, विशेषज्ञ-लिखित मूल्यांकन की आवश्यकता बढ़ गई है।

-फ्रंटियरसाइंस के दो ट्रैक हैं: ओलंपियाड (सैद्धांतिक तर्क) और रिसर्च (वास्तविक दुनिया, बहु-चरणीय कार्य)।

-GPT-5.2 ओलंपियाड कार्यों पर 77% और अनुसंधान कार्यों पर 25% स्कोर करके प्रदर्शन में अग्रणी है।

यह भी पढ़ें | Apple ने iOS 26.3 बीटा के साथ iPhone से Android पर जाना आसान बना दिया है

Source link

Leave a Reply Cancel reply

Related Stories

पीटर स्टीनबर्गर कौन हैं? ओपनएआई ने ‘केवल एआई’ सोशल मीडिया प्लेटफॉर्म मोल्टबुक के संस्थापक को नियुक्त किया

इंडिया एआई इम्पैक्ट समिट 2026: सीधा लिंक, शुल्क, ऑनलाइन पंजीकरण कैसे करें और बहुत कुछ

एआई में अमेरिका और भारत के बीच मजबूत संबंधों में स्वास्थ्य सेवा, शिक्षा के लिए जबरदस्त संभावनाएं हैं: रूब्रिक सीईओ

You may have missed

‘चिंताएं गलत’: नैसकॉम अध्यक्ष एआई द्वारा तकनीकी नौकरियां लेने को लेकर चिंतित क्यों नहीं हैं?

एसबीआई क्लर्क मेन्स परिणाम 2026 जल्द ही sbi.co.in पर जारी होने की उम्मीद है: विवरण यहां देखें

मेघन मार्कल, प्रिंस हैरी एनबीए ऑल-स्टार गेम में शामिल हुए, रानी लतीफा के साथ बातचीत के दौरान तस्वीरें वायरल |

दिल्ली में एआई इम्पैक्ट शिखर सम्मेलन 2026: यातायात सलाह, परिवर्तन और बचने के मार्ग |