3 मिनट पढ़ेंनई दिल्ली8 मई, 2026 09:22 AM IST
OpenAI ने गुरुवार, 7 मई को अपनी नई पीढ़ी के वॉयस मॉडल पेश किए, जिनमें उपयोगकर्ताओं के बोलने के दौरान तर्क करने, अनुवाद करने और ट्रांसक्राइब करने की क्षमता है। कंपनी ने कहा कि एपीआई में उसके नवीनतम मॉडल में डेवलपर्स के लिए वॉयस ऐप की एक विस्तृत श्रृंखला बनाने की क्षमता है। सरल शब्दों में, डेवलपर्स अब ऐसे ऐप्स बनाने में सक्षम होंगे जो वास्तविक समय में उपयोगकर्ताओं के साथ बात कर सकते हैं, ट्रांसक्राइब कर सकते हैं और रूपांतरण का अनुवाद कर सकते हैं।
नए मॉडल GPT-Realtime-2 हैं, जो GPT-5 क्लास रीजनिंग के साथ आते हैं जो कठिन अनुरोधों को संभालने और स्वाभाविक रूप से बातचीत करने में सक्षम हैं। दूसरा मॉडल GPT-रियलटाइम-ट्रांसलेट है, जो OpenAI का नया लाइव ट्रांसलेशन मॉडल है जो 70 से अधिक इनपुट भाषाओं के भाषण को लगभग 13 आउटपुट भाषाओं में अनुवादित करता है। और मॉडल स्पीकर की गति को बनाए रखते हुए वास्तविक समय में ऐसा करता है। इस बीच, तीसरा मॉडल जीपीटी-रियलटाइम-व्हिस्पर है, जो एक नया स्ट्रीमिंग स्पीच-टू-टेक्स्ट है जो स्पीकर के बोलने के दौरान भाषण को लाइव ट्रांसक्रिप्ट करता है।
वॉयस मॉडल लाखों लोगों के लिए सॉफ़्टवेयर का उपयोग करने के सबसे पसंदीदा तरीकों में से एक हैं। हालाँकि, OpenAI ने कहा कि व्यावहारिक ध्वनि उत्पाद बनाना कहीं अधिक जटिल है। ऐसा इसलिए है क्योंकि एक एआई एजेंट को बातचीत के संदर्भ को समझने, अनुरोध में बदलाव होने पर समायोजित करने, बातचीत जारी रहने पर टूल का उपयोग करने और, सबसे महत्वपूर्ण बात, उस तरीके से प्रतिक्रिया देने की आवश्यकता होती है जो उस समय के लिए उपयुक्त लगता है।
OpenAI ने अपने आधिकारिक ब्लॉग में कहा, “एक साथ, हम जो मॉडल लॉन्च कर रहे हैं, वे रियलटाइम ऑडियो को सरल कॉल-एंड-रिस्पॉन्स से वॉयस इंटरफेस की ओर ले जाते हैं जो वास्तव में काम कर सकते हैं: सुनें, तर्क करें, अनुवाद करें, ट्रांसक्राइब करें और बातचीत शुरू होने पर कार्रवाई करें।”
जब तैनाती की बात आती है, तो इन मॉडलों से उन संगठनों को लाभ होने की संभावना है जो अपनी ग्राहक सेवा पेशकश का विस्तार करना चाहते हैं। भले ही, सैम अल्टमैन के नेतृत्व वाली कंपनी ने कहा है कि नई सुविधाएँ कई क्षेत्रों में मददगार होंगी, जिनमें मीडिया, इवेंट, शिक्षा, क्रिएटर प्लेटफ़ॉर्म आदि जैसे डोमेन शामिल हैं।
इसके अलावा, जब भारत की बात आती है, तो रियलटाइम अनुवाद का मतलब बहुभाषी आवाज अनुभव वाली सेवाएं हो सकता है। मॉडल डेवलपर्स को लाइव बहुभाषी आवाज अनुभव बनाने की अनुमति देता है जहां कई व्यक्ति अपनी वांछित भाषा में बात कर सकते हैं और वास्तविक समय में अनुवादित बातचीत को सुन सकते हैं और एक ही समय में ट्रांसक्रिप्शन पढ़ सकते हैं।
“भारत के लिए वॉयस एआई का निर्माण करने का मतलब विविध क्षेत्रीय ध्वन्यात्मकता को संभालना है। हिंदी, तमिल और तेलुगु में हमारे समकक्षों में, जीपीटी-रियलटाइम-ट्रांसलेट ने हमारे द्वारा परीक्षण किए गए किसी भी अन्य मॉडल की तुलना में 12.5% कम शब्द त्रुटि दर प्रदान की, साथ ही कम फ़ॉलबैक दर, उच्च कार्य पूर्णता और विलंबता जो प्राकृतिक बातचीत को बनाए रखती है,” बोल्नाएआई के सह-संस्थापक और सीटीओ प्रतीक सचान ने कहा, यह मॉडल बहुभाषी वॉयस एआई के लिए एक नया मानक स्थापित करता है।
© IE ऑनलाइन मीडिया सर्विसेज प्राइवेट लिमिटेड

