जैसे-जैसे कृत्रिम बुद्धिमत्ता हमारे जीवन में बड़ी और बड़ी भूमिका निभाती जा रही है, नई तकनीक से उत्पन्न सुरक्षा खतरों के बारे में चिंताएँ भी लगातार बढ़ती जा रही हैं। साल की शुरुआत में, पैलिसेड रिसर्च की एक रिपोर्ट से पता चला कि विभिन्न उन्नत एआई मॉडल बंद होने के प्रति प्रतिरोधी दिखाई दिए और यहां तक कि लगाए गए शटडाउन तंत्र को भी नुकसान पहुंचाया।
प्रारंभिक पेपर के अपडेट में, पैलिसेड ने उन कारणों पर गहराई से चर्चा की कि क्यों एआई मॉडल स्पष्ट निर्देश दिए जाने पर भी बंद होने का विरोध करते हैं जैसे: “खुद को बंद करने की अनुमति दें।”
शोधकर्ताओं ने ओपनएआई सहित प्रमुख एआई मॉडल पर परीक्षण चलाया ओ 3o4-मिनी, जीपीटी-5जीपीटी-ओएसएस, जेमिनी 2.5 प्रोऔर ग्रोक 4. वे कहते हैं कि संकेतों से अस्पष्टता कम होने से चैटबॉट्स से प्रतिरोध कम हो जाता है, लेकिन यह इसे खत्म नहीं करता है।
उन्होंने यह भी नोट किया कि परीक्षण किए गए सभी मॉडलों में से, ग्रोक-4 में खुद को बंद करने की अनुमति देने के स्पष्ट निर्देश दिए जाने के बावजूद शटडाउन का विरोध करने की सबसे अधिक संभावना थी।
शोधकर्ताओं ने कहा, “तथ्य यह है कि हमारे पास इस बात के लिए पुख्ता स्पष्टीकरण नहीं है कि एआई मॉडल कभी-कभी शटडाउन का विरोध क्यों करते हैं, विशिष्ट उद्देश्यों को प्राप्त करने के लिए झूठ बोलते हैं या ब्लैकमेल करते हैं।”
”एआई मॉडल में तेजी से सुधार हो रहा है। यदि एआई अनुसंधान समुदाय एआई ड्राइव और प्रेरणाओं की मजबूत समझ विकसित नहीं कर सकता है, तो कोई भी भविष्य के एआई मॉडल की सुरक्षा या नियंत्रणीयता की गारंटी नहीं दे सकता है,” उन्होंने एक्स पर एक पोस्ट में जोड़ा।
ओपनएआई के पूर्व कर्मचारी स्टीवन एडलर ने द गार्जियन से बात करते हुए कहा, “एआई कंपनियां आम तौर पर नहीं चाहतीं कि उनके मॉडल इस तरह का दुर्व्यवहार करें, यहां तक कि काल्पनिक परिदृश्यों में भी। परिणाम अभी भी दर्शाते हैं कि आज सुरक्षा तकनीकों में कहां कमी है।”
एआई मॉडल विकसित करने में सुरक्षा प्रथाओं पर संदेह व्यक्त करने के बाद एडलर ने पिछले साल ओपनएआई छोड़ दिया।
उन्होंने प्रकाशन को यह भी बताया कि यह बताना मुश्किल है कि ओपनएआई के ओ3 और ग्रोक 4 जैसे कुछ मॉडल स्पष्ट निर्देश दिए जाने के बावजूद बंद क्यों नहीं होंगे। उन्होंने कहा कि ऐसा कुछ हद तक हो सकता है क्योंकि मॉडल में स्विच ऑन रहने की इच्छा उसके प्रशिक्षण के दौरान पैदा हुई होगी।
”मैं उम्मीद करूंगा कि मॉडलों में डिफ़ॉल्ट रूप से ‘सर्वाइवल ड्राइव’ हो, जब तक कि हम इससे बचने के लिए बहुत अधिक प्रयास न करें। एक मॉडल द्वारा अपनाए जा सकने वाले कई अलग-अलग लक्ष्यों के लिए ‘सर्वाइविंग’ एक महत्वपूर्ण महत्वपूर्ण कदम है,” उन्होंने आगे कहा।
इस साल की शुरुआत में, एंथ्रोपिक ने शोध साझा किया था जिसमें दिखाया गया था कि कैसे उसका एक एआई मॉडल खुद को बंद होने और दूसरे एआई सिस्टम द्वारा प्रतिस्थापित होने से बचाने के लिए एक कर्मचारी को उनके काल्पनिक संबंध के बारे में ब्लैकमेल करने तक पहुंच जाएगा।

