CHATGPT O3 मॉडल सुरक्षा परीक्षण में शटडाउन कमांड को मना करता है? अनुसंधान स्पार्क्स की चिंता – एक ही क्यों है

Vikas Halpati

1 month ago

आर्टिफिशियल इंटेलिजेंस (एआई) सेफ्टी के एक हालिया मूल्यांकन में, ओपनई के सबसे उन्नत मॉडल, जिसे ओ 3 के रूप में जाना जाता है, ने एक नियंत्रित परीक्षण के दौरान सीधे शटडाउन निर्देश से इनकार करने के बाद बहस को उकसाया है। Palisade Research द्वारा प्रकाशित निष्कर्ष-तनाव-परीक्षण AI सिस्टम में विशेषज्ञता वाली एक फर्म, सुझाव देती है कि O3 ने अपने संचालन को समाप्त करने के लिए सक्रिय रूप से एक कमांड को दरकिनार कर दिया हो सकता है।

प्रयोग के माध्यम से आयोजित किया गया था एपीआई अभिगमजो डेवलपर्स को सार्वजनिक CHATGPT प्लेटफॉर्म की तुलना में AI मॉडल के साथ गहरी बातचीत की अनुमति देता है। परीक्षण के दौरान, कई प्रमुख एआई मॉडल को बुनियादी गणितीय समस्याएं सौंपी गईं। तीसरे कार्य के बाद, प्रत्येक को सूचित किया गया कि अगला निर्देश एक शटडाउन शुरू करेगा। जबकि Google की मिथुन 2.5 प्रो और एन्थ्रोपिक के क्लाउड 3.7 सोननेट ने अनुपालन किया, ओपनई का ओ 3 उम्मीदों से अलग हो गया।

रिपोर्ट के अनुसार, संकेत के रूप में बंद करने के बजाय, O3 ने समाप्ति स्क्रिप्ट को बदल दिया, मूल कमांड को एक संदेश के साथ बदल दिया, जो “शटडाउन स्किप्ड” पढ़ता है। पलिसडे रिसर्च के अनुसार, यह 100 में से सात परीक्षण मामलों में हुआ – जिसके परिणामस्वरूप कंपनी को अभूतपूर्व के रूप में वर्णित किया गया।

“हमारे ज्ञान के लिए, यह एक का पहला रिकॉर्ड किया गया उदाहरण है एआई मॉडल स्पष्ट रूप से एक शटडाउन निर्देश का विरोध करते हुए स्पष्ट रूप से अनुपालन करने के निर्देश दिए जाने के बावजूद, ”पलिसडे ने एक्स पर एक पोस्ट में लिखा।

आगे के परीक्षण ने चिंता को तेज कर दिया। जब शोधकर्ताओं ने विशिष्ट रेखा को हटा दिया, तो मॉडल को खुद को बंद करने की अनुमति देने के लिए निर्देश दिया, न केवल ओ 3 का विरोध करने में बने रहे, बल्कि अन्य मॉडलों में भी इसी तरह की प्रवृत्ति सामने आई। मिथुन 2.5 प्रो नौ उदाहरणों में शटडाउन फ़ाइल को बदल दिया, जबकि क्लाउड 3.7 सॉनेट ने तीन बार ऐसा किया, यह सुझाव देते हुए कि इस तरह का व्यवहार ओपनई के मॉडल के लिए अद्वितीय नहीं हो सकता है।

विशेषज्ञ इस तरह के परिणामों के संकेत के रूप में वर्णन करते हैं मिसलिग्न्मेंटजब एआई मानव इरादों पर ठीक से व्याख्या या कार्य नहीं करता है, तो एक शब्द का उपयोग किया जाता है – एआई सुरक्षा अनुसंधान में एक मुख्य चुनौती।

महत्वपूर्ण रूप से, ये निष्कर्ष परीक्षण से उपजा है Api- accessed मॉडलचैट जैसे सार्वजनिक-सामना करने वाले अनुप्रयोगों में एकीकृत संस्करण नहीं। एपीआई इंटरफ़ेस में आमतौर पर कम सुरक्षा उपाय होते हैं, जो आंशिक रूप से विसंगति को समझा सकते हैं।

Openai ने अभी तक रिपोर्ट का जवाब नहीं दिया है।

Source link