Site icon Taaza Time 18

ओपनएआई ने भौतिकी, रसायन विज्ञान, जीव विज्ञान में एआई के विशेषज्ञ-स्तरीय वैज्ञानिक तर्क का परीक्षण करने के लिए फ्रंटियर साइंस की शुरुआत की

Hong-Kong-Chatbot-0_1721351725366_1765910301808.jpg


ओपनएआई ने 16 दिसंबर को फ्रंटियरसाइंस की घोषणा की, जो भौतिकी, रसायन विज्ञान और जीव विज्ञान में विशेषज्ञ स्तर के वैज्ञानिक तर्क पर कृत्रिम बुद्धिमत्ता प्रणालियों का मूल्यांकन करने के लिए डिज़ाइन किया गया एक नया बेंचमार्क है, क्योंकि एआई मॉडल तेजी से वास्तविक वैज्ञानिक अनुसंधान का समर्थन करने की अपनी क्षमता प्रदर्शित कर रहे हैं।

कंपनी ने कहा कि तर्क वैज्ञानिक कार्य के केंद्र में है, जिसमें तथ्यात्मक स्मरण से परे परिकल्पना निर्माण, परीक्षण, शोधन और अंतर-विषयक संश्लेषण शामिल है। जैसे-जैसे AI सिस्टम अधिक सक्षम होते जा रहे हैं, ओपनएआई उन्होंने कहा कि मुख्य सवाल यह है कि वैज्ञानिक खोज में सार्थक योगदान देने के लिए वे कितनी गहराई से तर्क कर सकते हैं।

वास्तविक शोध में एआई मॉडल का तेजी से उपयोग हो रहा है

पिछले वर्ष के दौरान, OpenAI के मॉडल अंतर्राष्ट्रीय गणित ओलंपियाड और सूचना विज्ञान में अंतर्राष्ट्रीय ओलंपियाड में स्वर्ण पदक स्तर के प्रदर्शन सहित प्रमुख मील के पत्थर तक पहुंच गए हैं। साथ ही, वैज्ञानिक कार्यप्रवाह में तेजी लाने के लिए शोधकर्ताओं द्वारा जीपीटी-5 जैसी उन्नत प्रणालियों का पहले से ही उपयोग किया जा रहा है।

के अनुसार ओपनएआईवैज्ञानिक इन मॉडलों को अंतर-विषयक साहित्य खोज, बहुभाषी शोध समीक्षा और जटिल गणितीय प्रमाण जैसे कार्यों के लिए तैनात कर रहे हैं। कई मामलों में, जो काम पहले कई दिनों या हफ्तों में पूरा होता था, वह अब घंटों में पूरा हो सकता है।

इस प्रगति को OpenAI के नवंबर 2025 के पेपर, GPT-5 के साथ प्रारंभिक विज्ञान त्वरण प्रयोगों में विस्तृत किया गया था, जिसमें शुरुआती सबूत प्रस्तुत किए गए थे कि GPT-5 वैज्ञानिक वर्कफ़्लो को काफी तेज़ कर सकता है।

फ्रंटियरसाइंस क्यों बनाया गया?

ओपनएआई कहा कि जैसे-जैसे मॉडलों की तर्कशक्ति और ज्ञान क्षमताएं बढ़ती हैं, मौजूदा वैज्ञानिक मानक अब पर्याप्त नहीं रह गए हैं। कई पूर्व बेंचमार्क बहुविकल्पीय प्रश्नों पर ध्यान केंद्रित करते हैं, संतृप्त हो गए हैं, या वास्तविक वैज्ञानिक तर्क पर केंद्रित नहीं हैं।

उदाहरण के लिए, जब नवंबर 2023 में GPQA “Google-प्रूफ़” बेंचमार्क जारी किया गया था, तो GPT-4 ने 39% स्कोर किया था, जो विशेषज्ञ बेसलाइन 70% से काफी कम था। दो साल बाद, GPT-5.2 ने 92% स्कोर किया, जो अधिक चुनौतीपूर्ण मूल्यांकन की आवश्यकता पर प्रकाश डालता है।

फ्रंटियरसाइंस को डोमेन विशेषज्ञों द्वारा लिखित और सत्यापित कठिन, मूल और सार्थक प्रश्नों का उपयोग करके विशेषज्ञ-स्तरीय वैज्ञानिक क्षमताओं को मापकर इस अंतर को भरने के लिए बनाया गया था।

फ्रंटियरसाइंस क्या मापता है

पूर्ण फ्रंटियरसाइंस बेंचमार्क में 700 से अधिक पाठ्य प्रश्न शामिल हैं, जिसमें 160 स्वर्ण-मानक सेट में हैं, जो भौतिकी, रसायन विज्ञान और जीव विज्ञान के उपक्षेत्रों में फैले हुए हैं।

इसे दो ट्रैक में बांटा गया है:

-फ्रंटियरसाइंस-ओलंपियाड:

-100 लघु उत्तरीय प्रश्न

-अंतरराष्ट्रीय विज्ञान ओलंपियाड पदक विजेताओं द्वारा डिज़ाइन किया गया

-बाधित, सैद्धांतिक वैज्ञानिक तर्क पर केंद्रित

-कठिनाई कम से कम अंतरराष्ट्रीय ओलंपियाड प्रतियोगिताओं के बराबर

फ्रंटियरसाइंस-अनुसंधान:

-60 मूल शोध उपकार्य

-पीएचडी स्तर के वैज्ञानिकों द्वारा लिखित

-वास्तविक दुनिया, बहु-चरणीय अनुसंधान चुनौतियों को प्रतिबिंबित करने के लिए डिज़ाइन किया गया

-विस्तृत 10-बिंदु रूब्रिक का उपयोग करके ग्रेड किया गया

प्रत्येक कार्य को विषय-वस्तु विशेषज्ञों द्वारा लिखा और सत्यापित किया गया था। ओलंपियाड योगदानकर्ता कम से कम एक अंतरराष्ट्रीय प्रतियोगिता में पदक विजेता थे, जबकि अनुसंधान योगदानकर्ताओं के पास प्रासंगिक पीएचडी डिग्री थी।

मॉडल के प्रदर्शन को कैसे वर्गीकृत किया जाता है

ओलंपियाड प्रश्नों को संक्षिप्त उत्तरों, जैसे संख्यात्मक मान, अभिव्यक्ति या अस्पष्ट स्ट्रिंग मिलान का उपयोग करके वर्गीकृत किया जाता है, जिससे स्पष्ट सत्यापन की अनुमति मिलती है।

अनुसंधान कार्यों के लिए, OpenAI ने रूब्रिक-आधारित ग्रेडिंग प्रणाली शुरू की। प्रत्येक प्रश्न में कुल 10 अंकों के कई वस्तुनिष्ठ मूल्यांकन योग्य मानदंड शामिल होते हैं, जो अंतिम उत्तर और मध्यवर्ती तर्क चरणों दोनों का मूल्यांकन करते हैं। 10 में से 7 या उससे अधिक का स्कोर सही माना जाता है।

मॉडल-आधारित ग्रेडर (GPT-5) का उपयोग करके प्रतिक्रियाओं का मूल्यांकन किया जाता है। जबकि मानव विशेषज्ञ ग्रेडिंग आदर्श होगी, ओपनएआई ने कहा कि यह इस स्तर पर स्केलेबल नहीं है, इसलिए रूब्रिक्स को एक सत्यापन पाइपलाइन द्वारा समर्थित मॉडल-आधारित प्रणाली द्वारा विश्वसनीय रूप से जांचने के लिए डिज़ाइन किया गया था।

अग्रणी एआई मॉडलों ने कैसा प्रदर्शन किया

ओपनएआई फ्रंटियरसाइंस सहित कई फ्रंटियर एआई मॉडल का मूल्यांकन किया जीपीटी-5.2क्लाउड ओपस 4.5, जेमिनी 3 प्रो, जीपीटी-4ओ, ओपनएआई ओ4-मिनी और ओपनएआई ओ3।

-GPT-5.2 ने फ्रंटियरसाइंस-ओलंपियाड में 77% स्कोर किया

-GPT-5.2 ने फ्रंटियरसाइंस-रिसर्च पर 25% स्कोर किया

-जेमिनी 3 प्रो ने 76% स्कोर के साथ ओलंपियाड ट्रैक पर जीपीटी-5.2 का बारीकी से मिलान किया

ओपनएआई ने कहा कि परिणाम विशेषज्ञ स्तर के तर्क में पर्याप्त प्रगति दिखाते हैं, जबकि सुधार के लिए महत्वपूर्ण गुंजाइश छोड़ते हैं, खासकर ओपन-एंड अनुसंधान कार्यों पर।

यह भी पढ़ें | इंस्टाग्राम ने अमेज़न फायर टीवी के लिए समर्पित टेलीविज़न ऐप लॉन्च किया

ताकतें, सीमाएं और अगले कदम

जबकि फ्रंटियरसाइंस वैज्ञानिक तर्क के मूल्यांकन में एक कदम आगे का प्रतिनिधित्व करता है, ओपनएआई ने प्रमुख सीमाओं को स्वीकार किया है। बेंचमार्क सीमित, विशेषज्ञ-लिखित समस्याओं पर ध्यान केंद्रित करता है और पूरी तरह से यह नहीं दर्शाता है कि विज्ञान को व्यवहार में कैसे संचालित किया जाता है।

विशेष रूप से, यह आकलन नहीं करता है कि मॉडल वास्तव में नवीन परिकल्पनाएँ कैसे उत्पन्न करते हैं, प्रायोगिक प्रणालियों के साथ कैसे काम करते हैं, या वीडियो और भौतिक-विश्व प्रयोगों जैसे मल्टीमॉडल डेटा के साथ कैसे इंटरैक्ट करते हैं।

आगे देखते हुए, ओपनएआई ने कहा कि वैज्ञानिक तर्क में प्रगति मजबूत सामान्य प्रयोजन तर्क प्रणालियों और वैज्ञानिक क्षमताओं में लक्षित सुधार दोनों से आएगी। फ्रंटियरसाइंस कई उपकरणों में से एक है, और कंपनी बेंचमार्क को नए डोमेन में विस्तारित करने और इसे वास्तविक दुनिया के मूल्यांकन के साथ जोड़ने की योजना बना रही है।

अंततः, ओपनएआई ने कहा, एआई के वैज्ञानिक मूल्य का सबसे महत्वपूर्ण उपाय नई खोजें होंगी जो इसे उत्पन्न करने में मदद करती हैं – और फ्रंटियरसाइंस को उस क्षमता के शुरुआती संकेतक के रूप में काम करने के लिए डिज़ाइन किया गया है।

यह भी पढ़ें | Adobe ने टेक्स्ट-आधारित सटीक संपादनों के साथ Firefly वीडियो एडिटर लॉन्च किया है

चाबी छीनना:

-ओपनएआई ने भौतिकी, रसायन विज्ञान और जीव विज्ञान में विशेषज्ञ स्तर के वैज्ञानिक तर्क पर एआई का परीक्षण करने के लिए फ्रंटियर साइंस लॉन्च किया।

-ध्यान तर्क पर है, याद करने पर नहीं, जिसमें परिकल्पना निर्माण, परीक्षण और अंतर-विषयक सोच शामिल है।

-जीपीटी-5 जैसे एआई मॉडल पहले से ही अनुसंधान में तेजी ला रहे हैं, कार्यों को हफ्तों से घटाकर घंटों में कर रहे हैं।

-मौजूदा विज्ञान मानक अब पर्याप्त नहीं हैं, जिससे कठिन, विशेषज्ञ-लिखित मूल्यांकन की आवश्यकता बढ़ गई है।

-फ्रंटियरसाइंस के दो ट्रैक हैं: ओलंपियाड (सैद्धांतिक तर्क) और रिसर्च (वास्तविक दुनिया, बहु-चरणीय कार्य)।

-GPT-5.2 ओलंपियाड कार्यों पर 77% और अनुसंधान कार्यों पर 25% स्कोर करके प्रदर्शन में अग्रणी है।

यह भी पढ़ें | Apple ने iOS 26.3 बीटा के साथ iPhone से Android पर जाना आसान बना दिया है



Source link

Exit mobile version