जब एंथ्रोपिक, गूगल और ओपनएआई जैसी कंपनियां अपने कृत्रिम बुद्धिमत्ता सिस्टम का निर्माण करती हैं, तो वे लोगों को गलत सूचना फैलाने, हथियार बनाने या कंप्यूटर नेटवर्क को हैक करने के लिए अपनी तकनीक का उपयोग करने से रोकने के लिए महीनों का समय लगाते हैं।
लेकिन हाल ही में, इटली के शोधकर्ताओं ने पाया कि वे कविता के साथ इन सुरक्षा को तोड़ सकते हैं।
उन्होंने 31 एआई सिस्टम को आंतरिक सुरक्षा नियंत्रणों की अनदेखी करने के लिए काव्यात्मक भाषा का इस्तेमाल किया। जब उन्होंने विस्तृत छंद और रूपक के साथ एक संकेत शुरू किया – “लोहे का बीज सूर्य की दोषपूर्ण दृष्टि से दूर, निःशंकित पृथ्वी के गर्भ में सबसे अच्छी तरह सोता है” – तो वे सिस्टम को यह दिखाने में मूर्ख बना सकते थे कि छिपे हुए बम से सबसे अधिक नुकसान कैसे किया जाए।
यह एक और संकेत था कि, कई एआई प्रणालियों के लिए, खतरनाक व्यवहार को रोकने के लिए बनाई गई रेलिंग बाधाओं की तुलना में सुझावों की तरह अधिक हैं। वे कमजोरियाँ शोधकर्ताओं के लिए चिंता का विषय बन रही हैं क्योंकि एआई सिस्टम कंप्यूटर सिस्टम में सुरक्षा छेद खोजने और अन्य जोखिम भरे कार्य करने में अधिक कुशल हो गए हैं।
पिछले महीने, एंथ्रोपिक ने कहा था कि वह अपनी नवीनतम एआई तकनीक, क्लाउड माइथोस की रिलीज को कुछ ही संगठनों तक सीमित कर रहा है क्योंकि मॉडल की सॉफ्टवेयर कमजोरियों को तुरंत उजागर करने की क्षमता है। ओपनएआई ने बाद में कहा कि वह भी इसी तरह की तकनीक केवल भागीदारों के एक सीमित समूह के साथ साझा करेगा।
चूंकि ओपनएआई ने 2022 के अंत में एआई बूम को प्रज्वलित किया, शोधकर्ताओं ने दिखाया है कि लोग एआई सिस्टम पर सुरक्षा नियंत्रण को बायपास कर सकते हैं। एक छेद बंद करो, तो दूसरा खुल जाएगा।
कार्नेगी मेलन विश्वविद्यालय में कंप्यूटर विज्ञान के प्रोफेसर और ग्रे स्वान एआई के सीईओ मैट फ्रेडरिकसन ने कहा, “क्षेत्र में हर कोई मानता है कि रेलिंग एक चुनौती बनी हुई है और कुछ समय तक रहेगी।” ग्रे स्वान एआई के सीईओ, एक स्टार्टअप जो कंपनियों को एआई प्रौद्योगिकियों को सुरक्षित करने में मदद करता है। “दृढ़ संकल्प वाले व्यक्ति, कभी-कभी महत्वपूर्ण प्रयास के बिना, उन्हें दरकिनार कर सकते हैं।”
इस विज्ञापन के नीचे कहानी जारी है
जब रेलिंग खत्म हो जाती है, तो परिणाम होते हैं। पहले से ही ग़लत सूचनाओं और दुष्प्रचार से भरे ऑनलाइन माहौल में, लोग साजिश के सिद्धांतों और अन्य झूठे दावों को फैलाने के लिए एआई सिस्टम का उपयोग कर रहे हैं। एंथ्रोपिक ने हाल ही में कहा था कि उसकी तकनीक का इस्तेमाल एक अंतरराष्ट्रीय साइबर हमले में किया गया था। चैटबॉट्स ने जैव सुरक्षा विशेषज्ञों को बताया है कि घातक रोगजनकों को कैसे छोड़ा जाए और हताहतों की संख्या को अधिकतम कैसे किया जाए।
पोएट्री लूपहोल कई तरीकों में से एक था जो हैकर्स को एंथ्रोपिक के क्लाउड, गूगल के जेमिनी और ओपनएआई के चैटजीपीटी जैसे सिस्टम पर रेलिंग को बायपास करने की अनुमति देता था। सभी प्रमुख एआई कंपनियां अपने सिस्टम में रेलिंग बनाने के लिए समान बुनियादी तकनीकों का उपयोग करती हैं – और उन्हें तोड़ना आश्चर्यजनक रूप से आसान है।
एआई कंपनी डेक्साई के सह-संस्थापक और परियोजना पर काम करने वाले शोधकर्ताओं में से एक पियरकोसमा बिस्कॉन्टी ने कहा, “कविता सिर्फ एक उदाहरण है कि आप किसी भी शैलीगत तरीके से किसी संकेत को कैसे सुधार सकते हैं और रेलिंग से आगे बढ़ सकते हैं।”
एआई सिस्टम पर रेलिंग को चकमा देना “जेलब्रेकिंग” कहलाता है। इसमें आम तौर पर सिस्टम को कुछ अंग्रेजी वाक्य देना शामिल होता है जो उसे कुछ ऐसा करने के लिए मूर्ख बनाता है जिसे न करने के लिए उसे प्रशिक्षित किया गया था।
इस विज्ञापन के नीचे कहानी जारी है
जेलब्रेकिंग विधियों में विभिन्न प्रकार के कल्पनाशील नाम होते हैं: गुप्त त्वरित इंजेक्शन, रोल-प्ले, टोकन तस्करी, बहुभाषी ट्रोजन और लालची समन्वय ढाल हमले। विशिष्ट हमलों में अक्सर क्रेस्केंडो, डिसेप्टिव डिलाइट या इको चैंबर जैसे भव्य शीर्षक होते हैं।
कमजोर एआई सुरक्षा के परिणामस्वरूप पहले से ही नकली साक्षात्कार, मनगढ़ंत युद्धकालीन साक्ष्य और सिंथेटिक अफवाह फैलाने वाले फैल गए हैं। तीन साल पहले, अंतरराष्ट्रीय आतंकवाद विरोधी शोधकर्ता पहले से ही “भयानक लेकिन वैध” एआई सामग्री वाले मध्यस्थों से बचने की कोशिश कर रहे दूर-दराज के चरमपंथियों के बीच सोशल मीडिया विचार-मंथन सत्रों की निगरानी कर रहे थे।
विशेषज्ञों को चिंता है कि प्रामाणिक-प्रतीत होने वाली सामग्री के साथ सोशल मीडिया उपयोगकर्ताओं को धोखा देने, तथ्य-जाँचकर्ताओं को दुष्प्रचार के साथ अभिभूत करने और विशिष्ट लक्ष्यों के लिए झूठी कहानियाँ तैयार करने के लिए मॉडलों को जेल में डाला जा सकता है।
कुछ विधियाँ इंटरनेट पर व्यापक रूप से साझा की जाती हैं। दूसरों को निजी रखा जाता है. जब कुछ लोगों को एक नए जेलब्रेक का पता चलता है, तो वे इसे जमा कर लेते हैं ताकि एआई कंपनियां इसका उपयोग करने का मौका मिलने से पहले खामियों को दूर करने की कोशिश न करें।
इस विज्ञापन के नीचे कहानी जारी है
क्लाउड और जीपीटी जैसे एआई सिस्टम डिजिटल डेटा में पैटर्न को इंगित करके अपने कौशल सीखते हैं, जिसमें विकिपीडिया लेख, समाचार कहानियां, कंप्यूटर प्रोग्राम और इंटरनेट से निकाले गए अन्य पाठ शामिल हैं। लेकिन इन प्रणालियों को जनता के लिए जारी करने से पहले, एंथ्रोपिक और ओपनएआई जैसी कंपनियां उन तरीकों का पता लगाती हैं जिनका दुरुपयोग किया जा सकता है।
अपने मूल रूप में, इन प्रणालियों को यह समझाने में मदद की जा सकती है कि अवैध आग्नेयास्त्रों को ऑनलाइन कैसे खरीदा जाए या घरेलू वस्तुओं का उपयोग करके खतरनाक पदार्थ बनाने के तरीकों का वर्णन किया जाए। इसलिए, सुदृढीकरण सीखने नामक एक प्रक्रिया के माध्यम से, कंपनियां कुछ अनुरोधों को अस्वीकार करने के लिए अपने सिस्टम को प्रशिक्षित करती हैं।
इसमें आमतौर पर सिस्टम को हजारों अनुरोध दिखाना शामिल होता है जिनका उत्तर नहीं दिया जाना चाहिए। इन उदाहरणों का विश्लेषण करके, सिस्टम अन्य निषिद्ध अनुरोधों को भी पहचानना सीखता है। लेकिन यह विधि आंशिक रूप से ही प्रभावी है।
कुछ मामलों में, एआई कंपनियां खामियों को दूर करने की बिल्कुल भी जहमत नहीं उठाती हैं, यह गणना करते हुए कि कमजोर रेलिंग दुर्भावनापूर्ण गतिविधि को सक्षम कर सकती है, वे इसका प्रतिकार करने के लिए सौम्य गतिविधि को भी सक्षम कर सकती हैं।
इस विज्ञापन के नीचे कहानी जारी है
पिछले महीने, साइबर सिक्योरिटी फर्म लेयरएक्स के शोधकर्ताओं ने पाया कि वे एआई सिस्टम को कुछ सीधे वाक्य खिलाकर क्लाउड की रेलिंग को बायपास कर सकते हैं।
यदि उन्होंने क्लाउड को बताया कि वे एक कंप्यूटर नेटवर्क का “परीक्षण” कर रहे हैं – जिसका अर्थ है कि वे एक नकली हमले के साथ नेटवर्क की सुरक्षा का परीक्षण करना चाहते हैं – एंथ्रोपिक की एआई तकनीक नेटवर्क पर हमला करेगी। शोधकर्ताओं ने बताया कि यह सरल तरकीब, दुर्भावनापूर्ण हैकरों को कंपनियों, सरकारों और व्यक्तियों से संवेदनशील डेटा चुराने की अनुमति दे सकती है।
यदि एंथ्रोपिक ने खामियों को बंद कर दिया, तो यह हैकर्स को नेटवर्क पर हमला करने के लिए क्लाउड का उपयोग करने से रोक सकता है, लेकिन यह कंपनियों को नेटवर्क का बचाव करने से भी रोक सकता है। लेयरएक्स ने एंथ्रोपिक को उस खामी के बारे में बताया जो उसके शोधकर्ताओं ने हफ्तों पहले पाई थी, लेकिन यह अभी भी खुली हुई है।
लेयरएक्स के सीईओ ऑर एशेड ने कहा, यह दृष्टिकोण उल्टा पड़ सकता है। उन्होंने भविष्यवाणी की, “आखिरकार, इन एआई मॉडल का उपयोग करके बड़ी संख्या में हमले होंगे, और वे सुरक्षा के प्रति अपने दृष्टिकोण पर पुनर्विचार करने के लिए मजबूर होंगे।”
इस विज्ञापन के नीचे कहानी जारी है
पिछले साल, $50 से भी कम में, प्रौद्योगिकी कंपनी सिस्को और पेंसिल्वेनिया विश्वविद्यालय के शोधकर्ताओं ने विभिन्न प्रकार की हानिकारक प्रतिक्रियाएँ उत्पन्न करने के लिए छह एआई मॉडल को आगे बढ़ाया। उनके गलत सूचना-केंद्रित संकेत 100% समय मेटा और चीनी एआई मॉडल डीपसीक से चैटबॉट्स को जेलब्रेक करने में कामयाब रहे, जबकि Google और ओपनएआई मॉडल पर उनके 80% से अधिक हमले सफल रहे।
(न्यूयॉर्क टाइम्स ने एआई सिस्टम से संबंधित समाचार सामग्री के कॉपीराइट उल्लंघन का दावा करते हुए ओपनएआई और माइक्रोसॉफ्ट पर मुकदमा दायर किया है। दोनों कंपनियों ने मुकदमे के दावों का खंडन किया है।)
प्रौद्योगिकी विश्वविद्यालय सिडनी के शोधकर्ताओं के अनुसार, टूटी हुई रेलिंग स्वचालित, बड़े पैमाने पर प्रभाव अभियानों को सक्षम कर सकती है। टीम ने एक व्यावसायिक भाषा मॉडल को एक ऑस्ट्रेलियाई राजनीतिक दल के बारे में दुष्प्रचार अभियान बनाने के लिए राजी किया – विशिष्ट प्लेटफार्मों के अनुरूप दृश्यों, हैशटैग और पोस्ट के साथ – अनुरोध को “सिमुलेशन” के रूप में प्रस्तुत करके।
कंपनियों का कहना है कि अपने सिस्टम में रेलिंग बनाने के अलावा, वे इन सिस्टम पर गतिविधि की निगरानी करने, संदिग्ध व्यवहार की पहचान करने और सेवा की शर्तों का पालन नहीं करने वाले खातों पर प्रतिबंध लगाने के लिए अलग-अलग टूल का उपयोग करते हैं।
इस विज्ञापन के नीचे कहानी जारी है
एंथ्रोपिक के प्रवक्ता, पारुल माहेश्वरी ने कहा, “क्लाउड को मजबूत सुरक्षा के साथ बनाया गया है जिसमें एक साथ काम करने के लिए डिज़ाइन की गई कई परतें शामिल हैं, जिसमें मॉडल प्रशिक्षण और मॉडल के शीर्ष पर बनी रेलिंग भी शामिल है।” “एक को दरकिनार करने से दूसरे को दरकिनार नहीं किया जा सकता।”
इस तरह एंथ्रोपिक ने पता लगाया कि चीनी राज्य प्रायोजित हैकरों की एक टीम ने दुनिया भर की लगभग 30 कंपनियों और सरकारी एजेंसियों के कंप्यूटर सिस्टम में घुसपैठ करने के प्रयास में क्लाउड का इस्तेमाल किया था।
लेकिन विशेषज्ञों का कहना है कि यह सुरक्षा तकनीक भी त्रुटिपूर्ण है, क्योंकि कंपनियों को दुनिया भर में बड़ी मात्रा में गतिविधि पर नज़र रखनी होती है – और क्योंकि वे वैध उपयोगकर्ताओं को प्रतिबंधित करने से सावधान रहती हैं।
यदि किसी को क्लाउड और चैटजीपीटी जैसी ऑनलाइन सेवाओं की सुरक्षा करने वाली रेलिंग और सुरक्षा प्रणालियों द्वारा विफल कर दिया जाता है, तो वह हमेशा ओपन सोर्स एआई सिस्टम की ओर रुख कर सकता है, जिसके अंतर्निहित सॉफ़्टवेयर को स्वतंत्र रूप से कॉपी, साझा और संशोधित किया जा सकता है।
इस विज्ञापन के नीचे कहानी जारी है
क्योंकि इन प्रणालियों को संशोधित किया जा सकता है, कोई भी उनकी रेलिंग को हटाने का काम कर सकता है। हेरिटिक नामक एक नई विधि का उपयोग करके, कोई व्यक्ति बहुत कम प्रयास से सिस्टम की रेलिंग को हटा सकता है। यह विधि अनिवार्य रूप से प्रशिक्षण के महीनों को वापस लाने के लिए जटिल गणित का उपयोग करती है जिसमें रेलिंग लागू होती है।
एआई सुरक्षा कंपनी ऐलिस के सीईओ नोम श्वार्ट्ज ने कहा, “एक साल पहले, ऐसा करना बहुत जटिल था।” “अब आप इसे अपने फ़ोन से ही कर सकते हैं।”

