OpenAI का नया — और पहला! – वीडियो-जनरेटिंग मॉडल,सोरा, कुछ सचमुच प्रभावशाली सिनेमैटोग्राफ़िक करतब दिखा सकता है। लेकिन मॉडल सम हैअधिक कम से कम तकनीकी दृष्टि से देखें तो यह ओपनएआई की तुलना में सक्षम है, जिसे शुरू में माना गया थाकागज़ आज शाम प्रकाशित.
कई OpenAI शोधकर्ताओं द्वारा सह-लेखक, “विश्व सिमुलेटर के रूप में वीडियो पीढ़ी मॉडल” शीर्षक वाला पेपर, सोरा की वास्तुकला के प्रमुख पहलुओं पर से पर्दा उठाता है – उदाहरण के लिए, यह खुलासा करता है कि सोरा एक मनमाना रिज़ॉल्यूशन और पहलू अनुपात के वीडियो उत्पन्न कर सकता है ( 1080p तक)। पेपर के अनुसार, सोरा कई प्रकार के छवि और वीडियो संपादन कार्य करने में सक्षम है, जिसमें लूपिंग वीडियो बनाने से लेकर वीडियो को आगे या पीछे समय में विस्तारित करने से लेकर मौजूदा वीडियो में पृष्ठभूमि बदलने तक शामिल है।
लेकिन इस लेखक के लिए सबसे दिलचस्प सोरा की “डिजिटल दुनिया का अनुकरण” करने की क्षमता है, जैसा कि ओपनएआई के सह-लेखकों ने कहा है। एक प्रयोग में, ओपनएआई ने सोरा को माइनक्राफ्ट पर ढीला कर दिया और इसे खिलाड़ी को नियंत्रित करने के साथ-साथ दुनिया – और भौतिकी सहित इसकी गतिशीलता – को प्रस्तुत किया।
सोरा Minecraft में एक खिलाड़ी को नियंत्रित कर रहा है – और वीडियो गेम की दुनिया को उसी तरह प्रस्तुत कर रहा है जैसे वह करता है। ध्यान दें कि दानेदारपन को वीडियो-टू-जीआईएफ कनवर्टर टूल द्वारा पेश किया गया था, सोरा द्वारा नहीं। छवि क्रेडिट: ओपनएआई
तो सोरा ऐसा कैसे कर पाती है? साथ हीदेखा वरिष्ठ एनवीडिया शोधकर्ता जिम फैन द्वारा, सोरा एक रचनात्मक से भी अधिक “डेटा-संचालित भौतिकी इंजन” है। यह केवल एक फोटो या वीडियो तैयार नहीं कर रहा है, बल्कि पर्यावरण में प्रत्येक वस्तु की भौतिकी का निर्धारण कर रहा है – और इन गणनाओं के आधार पर एक फोटो या वीडियो (या इंटरैक्टिव 3 डी दुनिया, जैसा भी मामला हो) प्रस्तुत कर रहा है।
सह-लेखक लिखते हैं, “ये क्षमताएं बताती हैं कि वीडियो मॉडल की निरंतर स्केलिंग भौतिक और डिजिटल दुनिया के अत्यधिक सक्षम सिमुलेटर और उनके भीतर रहने वाली वस्तुओं, जानवरों और लोगों के विकास की दिशा में एक आशाजनक मार्ग है।”
अब, सोरा की सामान्य सीमाएँ वीडियो गेम डोमेन पर लागू होती हैं। मॉडल कांच के टूटने जैसी बुनियादी अंतःक्रियाओं की भौतिकी का सटीक अनुमान नहीं लगा सकता है। और यहां तक कि बातचीत के साथ भीकर सकना मॉडल, सोरा अक्सर असंगत होता है – उदाहरण के लिए एक व्यक्ति को बर्गर खाते हुए दिखाना लेकिन काटने के निशान दिखाने में असफल होना।
फिर भी, अगर मैं पेपर सही ढंग से पढ़ रहा हूं, तो ऐसा लगता है कि सोरा अधिक यथार्थवादी – शायद फोटोरिअलिस्टिक – प्रक्रियात्मक रूप से उत्पन्न गेम के लिए मार्ग प्रशस्त कर सकता है। यह समान रूप से रोमांचक और डरावना है (एक के लिए, गहरे नकली निहितार्थों पर विचार करें) – शायद यही कारण है कि ओपनएआई ने सोरा को पीछे छोड़ने का विकल्प चुना हैबहुतअभी के लिए सीमित पहुंच कार्यक्रम।
यहाँ आशा है कि हम बाद की अपेक्षा जल्द ही और अधिक सीखेंगे।
Leave a Reply