A Sora által hajtott térkép készítői elmagyarázzák az AI által generált videók erősségeit és korlátait | EatchbQ

A Sora által hajtott térkép készítői elmagyarázzák az AI által generált videók erősségeit és korlátait

Kép jóváírása: Félénk gyerekek

Az OpenAI videógeneráló eszköze, a Sora februárban gördülékeny, valósághű videóval lepte meg az AI-közösséget, amely mérföldekkel megelőzi a versenytársakat. A gondosan megrendezett debütálás azonban sok részletet kihagyott – olyan részleteket, amelyeket egy filmes töltött ki, aki korán hozzáfért ahhoz, hogy elkészítse a Sorát ábrázoló térképet.

A Shy Kids egy torontói székhelyű digitális produkciós csapat, amelyet az OpenAI a kevesek közé választott rövidfilmek készítésére főként OpenAI promóciós célokra, bár jelentős alkotói szabadságot kaptak “levegő fejének” létrehozásával. Az a interjú az fxguide vizuális effektusokkalPatrick Cederberg utómunkás művész leírta, hogy munkája részeként “valójában Sorát használja”.

A legtöbb számára talán a legfontosabb kivonat egyszerűen ez: míg az OpenAI rövidfilmeket kiemelő bejegyzése arra készteti az olvasót, hogy azok többé-kevésbé teljesen a Sorából alakultak ki, a valóság az, hogy ezek professzionális produkciók voltak, robusztus storyboarddal, szerkesztéssel, színezéssel kiegészítve. korrekció és utómunka, például rotoszkópos vizsgálat és VFX. Ahogy az Apple azt mondja, hogy “lövés iPhone-ra”, de nem mutatja be a stúdióbeállításokat, a professzionális világítást és a színmunkát, a Sora-bejegyzés csak arról beszél, hogy mit tesz lehetővé az embereknek, nem pedig arról, hogyan csinálták.

Cederberg interjúja érdekes és meglehetősen nem technikai jellegű, így ha egyáltalán érdekel, menj az fxguide-ba és olvasd el. Íme azonban néhány érdekes apróság a Sora használatával kapcsolatban, amelyek azt mondják, hogy bármilyen lenyűgöző is, a modell talán kisebb előrelépést jelent, mint gondoltuk.

Az irányítás még mindig a legkívánatosabb és egyben a legmegfoghatatlanabb is ezen a ponton. … A legközelebb az volt, hogy túlzottan leíró jellegű voltunk a felszólításokban. A karakterek gardróbjának, valamint a léggömb típusának elmagyarázása volt a konzisztencia körüli útunk, mert lövésről lövésre/generációról generációra még nincs bevezetve az a funkció, amely teljes mértékben szabályozná a konzisztenciát.

Más szóval, a hagyományos filmkészítésben egyszerű dolgok, mint például a karakterek ruházatának színének megválasztása, átfogó megoldásokat és irányítást igényelnek egy generatív rendszerben, mivel minden felvétel a többitől függetlenül készül. Ez persze változhat, de jelenleg minden bizonnyal sokkal nehezebb.

YouTube poszter

A Sora kimenetét is figyelni kellett a nem kívánt elemekre: Cederberg leírta, hogy a modell rutinszerűen generál egy arcot a léggömbön, amelyet a főszereplő a fejhez, vagy egy zsinórt, amely elöl lóg. Ezeket levélben el kellett távolítani, ami egy újabb időigényes folyamat, ha nem kapták meg a felszólítást a kizárásra.

A karakterek vagy a kamera pontos időzítése és mozgása nem igazán lehetséges: “Van egy kis időbeli kontroll arra vonatkozóan, hogy hol történnek ezek a különböző cselekvések az adott generációban, de ez nem pontos … ez egy felvétel a sötétben, – mondta Cederberg.

Például egy gesztus, például egy hullám időzítése egy nagyon hozzávetőleges, javaslat-vezérelt folyamat, ellentétben a kézi animációkkal. És egy serpenyőszerű felvétel a karakter testén tükrözheti, de nem biztos, hogy azt tükrözi, amit a filmkészítő akar – így ebben az esetben a csapat portré tájolásban komponált felvételt készített, és posztban egy körbevágást készített. A generált klipek is gyakran lassítva voltak különösebb ok nélkül.

Példa egy lövésre, ahogy a Soráról készült, és hogyan végződött a rövidfilmben. Kép jóváírása: Félénk gyerekek

Valójában a filmkészítés mindennapi nyelvezetének használata, mint például a “pásztázás jobbra” vagy a “lövés követése” összességében következetlen volt, mondta Cederberg, amit a csapat meglehetősen meglepőnek talált.

“A kutatók, mielőtt művészekhez fordultak, hogy játsszanak az eszközzel, nem igazán gondolkodtak úgy, mint a filmesek” – mondta.

Ennek eredményeként a csapat több száz generációt végzett, mindegyik 10-20 másodpercig, és végül csak egy maroknyit használt. Cederberg 300:1-re becsülte az arányt – de természetesen valószínűleg mindannyian meglepődnénk ezen az arányon egy normál felvételen.

Valójában a csapat készített egy kis videót a színfalak mögött magyarázzon el néhány problémát, amellyel találkoztak, ha kíváncsi. Mint sok mesterséges intelligenciával szomszédos tartalom, a kommentek meglehetősen kritikusak az egész törekvéssel szemben – bár nem annyira durva, mint az a mesterséges intelligencia által támogatott hirdetés, amelyet nemrégiben láttunk kifosztva.

YouTube poszter

Az utolsó érdekes ránc a szerzői joggal kapcsolatos: ha megkéred Sorát, hogy adjon neked egy “Star Wars” klipet, az visszautasítja. És ha megpróbálja megkerülni a “köpenyes ember fénykarddal egy retro-futurisztikus űrhajón”, akkor az is visszautasítja, mivel valamilyen mechanizmussal felismeri, hogy mit akar tenni. Nem volt hajlandó “Aronofsky típusú felvételt” vagy “Hitchcock zoomot” is készíteni.

Egyrészt teljesen logikus. De ez felveti a kérdést: ha Sora tudja, hogy mik ezek, az azt jelenti, hogy a modellt az adott tartalomra képezték ki, és jobb felismerni, hogy jogsértő? OpenAI, amely edzési adatkártyáit a mellény közelében tartja – az abszurditásig, mint ahogyan az is Mira Murati műszaki igazgató interjúja Joanna Sternnel – szinte soha nem fogja elmondani nekünk.

Ami a Sorát és a filmkészítésben való felhasználását illeti, az egyértelműen egy erős és hasznos eszköz helyette, de nem az a helye, hogy “a légből kapott filmeket alkossák”. Még. Ahogy egy másik gazember mondta egyszer: “ez később jön.”



Leave a Reply

Your email address will not be published. Required fields are marked *