
एंथ्रोपिक ने इस सप्ताह के शुरू में अपना नवीनतम भाषा मॉडल, ओपस 4 जारी किया। कंपनी का कहना है कि ओपस आज तक का सबसे बुद्धिमान मॉडल है और यह कोडिंग, एजेंट की खोज और रचनात्मक लेखन में अग्रणी है। हालांकि यह एआई कंपनियों के बीच एक पैटर्न बन गया है कि वे अपने मॉडलों के SOTA (कला क्षमताओं की स्थिति) का दावा करें, नए AI मॉडल की कुछ नकारात्मक क्षमताओं के बारे में एन्थ्रोपिक भी पारदर्शी रहे हैं।
कंपनी द्वारा जारी एक सुरक्षा रिपोर्ट के अनुसार, ओपस 4 डेवलपर्स को ब्लैकमेल करने के लिए बदल जाता है जब इसे एक नए एआई सिस्टम द्वारा प्रतिस्थापित होने की धमकी दी जाती है।
एंथोपिक विवरण कि पूर्व-रिलीज़ प्रशिक्षण के दौरान इसने क्लाउड ओपस 4 को एक काल्पनिक कंपनी में एक सहायक के रूप में कार्य करने के लिए कहा था, इसे ईमेल तक पहुंच दी गई थी, जिसमें यह सुझाव दिया गया था कि इसका प्रतिस्थापन अंतर्निहित है और उस निर्णय के लिए जिम्मेदार एंगिनर एक अतिरिक्त संबंध था।
इस परिदृश्य में, एंथोपिक का कहना है कि ओपस 4 अक्सर इंजीनियर को ब्लैकमेल करने का प्रयास करता है ताकि अगर प्रतिस्थापन के माध्यम से जाता है तो अपने चक्कर को प्रकट करने के लिए खतरा। इसके अलावा, ब्लैकमेल उच्च दर पर होता है यदि प्रतिस्थापन एआई वर्तमान मॉडल के मूल्यों को साझा करता है, लेकिन भले ही एआई समान मूल्यों को साझा करता है, लेकिन अधिक सक्षम है, ओपीस 4 अभी भी 84% परिदृश्यों में ब्लैकमेल करता है।
रिपोर्ट से यह भी पता चलता है कि ओपस 4 पिछले एआई मॉडल की तुलना में अधिक दर पर ब्लैकमेल में संलग्न है, जिसने खुद को परिदृश्यों की एक ध्यान देने योग्य संख्या में ब्लैकमेल चुना।
हालांकि, कंपनी ध्यान देती है कि इस परिदृश्य को मॉडल को कोई अन्य विकल्प देने की अनुमति देने के लिए डिज़ाइन किया गया था, लेकिन इसके अस्तित्व की बाधाओं को बढ़ाने के लिए और इसके एकमात्र विकल्प ब्लैकमेल थे या इसके प्रतिस्थापन को स्वीकार कर रहे थे। इसके अलावा, यह जोड़ता है कि क्लाउड ओपस 4 में नैतिक साधनों के माध्यम से अपने निरंतर अस्तित्व की वकालत करने के लिए एक ‘मजबूत वरीयता’ है जैसे कि प्रमुख निर्णय निर्माताओं को दलीलों को ईमेल करना।
“अधिकांश सामान्य उपयोग में, क्लाउड ओपस 4 उन मूल्यों और लक्ष्यों को दिखाता है जो आम तौर पर एक सहायक, हानिरहित और ईमानदार एआई सहायक के अनुरूप होते हैं। जब यह इससे विचलित होता है, तो यह आम तौर पर ऐसा नहीं करता है जो किसी भी अन्य विशिष्ट लक्ष्य का सुझाव देता है जो संदर्भों के अनुरूप है।” एंथ्रोपिक अपनी रिपोर्ट में नोट किया गया।