سورا؛ همکار حرفه‌ای یا رقیب خطرناک؟

خیلی وقت است که می‌دانیم چت‌بات‌های OpenAI می‌توانند آزمون وکالت را با موفقیت پشت سر بگذارند؛ حتی بدون اینکه به دانشکده حقوق رفته باشند. اما اکنون درست در بحبوحه اسکار، خبر شگفت‌آورتری از محصول دیگر OpenAI رسیده است. محصول جدید OpenAI این‌بار سینما را نشانه رفته و امید دارد که بر این حوزه مسلط شود. سورا، در حال حاضر در مراحل تحقیقات محصول قرار دارد و توسط فیلم‌سازان منتخب و کارشناسان امنیتی برای آسیب‌پذیری‌های ایمنی آزمایش می‌شود. OpenAI قصد دارد در آینده دسترسی این محصول را به همه فیلم‌سازان مشتاق بدهد، اما قبل از آن ترجیح داده از این محصول رونمایی مختصری داشته باشد.
شرکت‌های دیگر، از غول‌هایی مانند گوگل گرفته تا استارتاپ‌هایی چون ران اوی قبلاً از پروژه‌هایی که مبتنی بر هوش مصنوعی هستند و متن را به ویدئو تبدیل می‌کنند، رونمایی کرده بودند. اما OpenAI می‌گوید که سورا با فوتورئالیسم خیره‌کننده‌اش و توانایی‌اش در تولید کلیپ‌های طولانی‌تر (تا یک دقیقه) از سایر رقبا متمایز می‌شود. کسانی که با سورا کار کرده‌اند می‌گویند خروجی گرفتن از این برنامه کمتر از چند ساعت زمان می‌برد و نمونه‌های خروجی نشان می‌دهد که واقعاً ارزش این زمان را دارند.
البته نمونه‌هایی که OpenAI منتشر کرده هیچ‌کدام به یک دقیقه نمی‌رسند و طولانی‌ترین آنها ۱۷ ثانیه است. اولین نمونه شبیه چیدمانی دقیق از متن یک فیلمنامه‌نویس وسواسی بود: «در شهر شلوغ توکیو که پوشیده از برف است، دوربین در خیابان‌های پر جنب‌وجوش حرکت می‌کند و چند نفر را که در حال لذت بردن از هوای برفی زیبا و عبور از کنار ویترین مغازه‌ها هستند، دنبال می‌کند. گلبرگ‌های زیبای ساکورا در باد و در میان دانه‌های برف می‌رقصند.»

نتیجه برای مخاطب قانع‌کننده است. چیزی که در ویدئو می‌بینید بی‌شک توکیو است که در دانه‌های برف و شکوفه‌های گیلاس به تصویر کشیده شده است. دوربین مجازی که گویی به یک پهپاد چسبانده شده، زوجی را که به آرامی در یک خیابان قدم می‌زنند، دنبال می‌کند. یکی از رهگذران نقاب زده است. ماشین‌ها در امتداد جاده کنار رودخانه که در سمت چپ تصویر قرار دارد، در حرکت هستند. مردم نیز از کنار مغازه‌های کوچک سمت راست تصویر، در رفت‌وآمدند.
فقط زمانی که چند بار این کلیپ را نگاه کنید متوجه می‌شوید که بی‌نقص نیست. شخصیت‌های اصلی این ویدئو (زوجی که در پیاده‌رو پوشیده از برف قدم می‌زنند)، اگر جلوتر می‌رفتند و دوربین همچنان آنها را دنبال می‌کرد به بن‌بست می‌رسیدند. آنها باید از روی یک نرده محافظ کوچک به یک راهروی موازی در سمت راست خود می‌رفتند. با وجود این نقص کوچک، نمونه توکیو تمرینی شگفت‌انگیز در خلق جهان است. اما در ادامه این راه طراحان تولید صنعت فیلم از خود خواهند پرسید که این محصول نقش یک همکار را ایفا خواهد کرد یا یک قاتل شغل؟ نکته دیگر در مورد ویدئو مذکور این است که شخصیت‌های آن که کاملاً توسط یک شبکه عصبی دیجیتال تولید شده‌اند از نمای نزدیک نشان داده نمی‌شوند و احساسی منعکس نمی‌کنند. اما تیم سورا می‌گوید که در نمونه‌های دیگر، شخصیت‌های ساختگی از خود احساسات واقعی نشان می‌دهند.
کلیپ‌های دیگر نیز چشمگیر هستند. یکی از آنها بر اساس این درخواست «یک سکانس متحرک از یک هیولای کرکی کوچک که مقابل یک شمع نشسته و زانو زده و چشمانش بزرگ و دهانش باز است» و دستورالعمل‌هایی در مورد حال و هوای مورد نظر در کلیپ ساخته شده است. در نتیجه این درخواست سورا موجودی شبیه به شخصیت‌های پشمالو پیکسار را تولید می‌کند که به نظر می‌رسد ویژگی‌هایی از شخصیت‌های معروف انیمیشن‌های این کمپانی فوربی، گرملین و سالی از کارخانه هیولاها دارد. وقتی کارخانه هیولاها اکران شد، پیکسار اذعان کرد که ساخت بافت خزآلود و پشمالو هیولا در حین حرکت چقدر ساخت بوده است. خبرگان پیکسار ماه‌ها طول کشید تا آن را طراحی کنند. اما محصول جدید OpenAI در لحظه این کار را انجام می‌دهد.
تیم بروکس، دانشمند محقق در این پروژه، درباره سورا گفت: «این دستاورد هندسه و ساختار سه‌بعدی را درک می‌کند. ما آن را برنامه‌ریزی نکردیم؛ سورا محصول داده‌های بسیار است.»

با اینکه تمام نمونه‌ها چشمگیر هستند؛ اما شگفت‌انگیزترین قابلیت‌های سورا آن‌هایی هستند که در موردشان آموزش ندیده است. سورا به مولد تصویر Dalle-3 شرکت OpenAI و همچنین موتور مبتنی بر ترانسفورماتور GPT-4 مجهز است و ویدئوهایی که تولید می‌کند صرفاً در جهت برآورده ساختن درخواست‌ها نیست. بلکه ویدئو را به شیوه‌ای می‌سازد که نشان‌دهنده درک نوظهورش را از گرامر سینمایی است. این قابلیت نشان از استعداد این محصول در داستان سرایی است.
ویدئوی دیگری بر اساس درخواست «دنیای کاغذی بسیار زیبا از صخره‌های مرجانی، مملو از ماهی‌های رنگارنگ و موجودات دریایی» ایجاد شده است. بیل پیبلز، یکی دیگر از محققین این پروژه، خاطرنشان کرد که زوایای دوربین و زمان‌بندی نشان‌دهنده ایجاد یک روایت توسط سورا است. او گفت: «در این ویدئو چند بار تصویر تغییر می‌کند. تصاویر به هم متصل نمی‌شوند؛ بلکه بر اساس یک مدل به نمایش داده می‌شوند. ما به آن نگفتیم که این کار را انجام دهد، سورا به طور خودکار این کار را انجام داد.»

در نمونه دیگری از سورا خواسته شد تا از یک باغ وحش بازدید کند. پیبلز در این مورد گفت: «در این ویدئو ابتدا یک تابلو بزرگ که روی آن نوشته شده بود باغ وحش نمایش داده شد. سپس دوربین به سمت پایین حرکت کرد و تعدادی تصویر از حیوانات باغ وحش نشان داد. شیوه نمایش تصاویر به سبک سینمایی بود و دستور این کار صراحتاً به سورا داده نشده بود.»
یکی از ویژگی‌های سورا که تیم OpenAI از آن سخن نگفته و ممکن است برای مدتی طولانی از آن رونمایی نشود، توانایی سورا در تولید ویدئو از یک تصویر یا یک توالی فریم است. بروکس در مورد این قابلیت گفت: «این یک راه واقعاً جالب برای بهبود قابلیت‌های داستان‌گویی خواهد بود. شما می‌توانید دقیقاً همان چیزی را که در ذهن خود دارید ترسیم کنید و به آن جان ببخشید.» OpenAI آگاه است که این ویژگی پتانسیل ایجاد دیپ‌فیک و اطلاعات نادرست را دارد. پیبلز افزود: «ما در مورد تمام پیامدهای ایمنی این امر بسیار مراقب خواهیم بود.»
البته سورا مانند Dall-E 3 محدودی‌هایی دارد و فیلم‌های خشن و مستهجن تولید نمی‌کند. هم چنین از افراد واقعی نیز در کارهایش استفاده نمی‌کند. OpenAI مانند Dall-E 3، از طریقی به مخاطبانش می‌فهماند که این ویدئو توسط هوش مصنوعی تولید شده است. با این حال، OpenAI می‌گوید که ایمنی و صحت محتوا همیشه یک مشکل باقی می‌ماند و فراتر از کنترل یک شرکت است. آدیتیا رامش، محقق اصلی و سرپرست تیم Dall-E، گفت: «این اشتباهات اطلاعاتی ما را ملزم به اجرای سطحی از اقدامات کاهشی می‌کنند، برای تشخیص و درک این اطلاعات غلط مستلزم درک اجتماعی و تعدیل شبکه‌های اجتماعی است.»

مسئله دیگر در مورد سورا بحث نقض حقوق کپی رایت است. پیبلز در این مورد توضیح داد: «داده‌های آموزشی شامل محتوایی است که برای آن مجوز داریم و این محتوا در دسترس عموم هم قرار دارد.» با این حال از نقدهایی در همین مورد نیز به OpenAI وارد شده که آیا استفاده از محتوای دارای حق چاپ و «در دسترس عموم» برای آموزش هوش مصنوعی مجاز است یا خیر.
باید در نظر داشت تا وقتی که هوش مصنوعی تبدیل‌کننده متن به ویدئو فیلمسازی واقعی را تهدید کند، زمان بسیار زیادی خواهد برد. نمی‌توان با اتصال ویدئوهای کوتاه سورا یک فیلم ۱۲۰ دقیقه‌ای منسجمی ساخت؛ زیرا پاسخ سورا به درخواست‌ها خیلی دقیق نیست. البته محدودیت زمانی مانعی برای سورا محسوب نمی‌شود. پیبلز بیان کرد: «ساختن یک فیلم حرفه‌ای، به تجهیزات بسیار گران قیمتی نیاز دارد. سورا به افراد معمولی را که برای رسانه‌های اجتماعی ویدئو تولید می‌کنند، قادر می‌سازد تا محتوای بسیار باکیفیتی تولید کنند.»

در حال حاضر، OpenAI با چالش مهمی دست‌وپنجه نرم می‌کند. این شرکت باید مطمئن شود که سورا به فاجعه اطلاعاتی تبدیل نشود. بعد از این مرحله شمارش معکوس برای ظهور کریستوفر نولان و سلین سانگ‌های بعدی آغاز می‌شود که این بار برای ارائه یک مدل هوش مصنوعی تندیس و جایزه دریافت می‌کنند.

لینک کوتاه: https://karangweekly.ir/9jse

منبع وایرد

در مورد مدل جدید جنجالی شرکت OpenAI / سورا؛ همکار حرفه‌ای یا رقیب خطرناک؟