A Google bemutatja a Veo-t, egy nagyfelbontású mesterséges intelligencia-videógenerátort, amely a rivális Sora számára készült | EatchbQ

A Google bemutatja a Veo-t, egy nagyfelbontású mesterséges intelligencia-videógenerátort, amely a rivális Sora számára készült
Nagyít / A Google Veo által generált videókból készült állóképek.

Google / Benj Edwards

Kedden a Google I/O 2024 rendezvényen a Google bejelentette Jaj, egy új mesterséges intelligencia-videószintézis-modell, amely képes HD-videókat létrehozni szöveges, képi vagy videós promptokból, hasonlóan az OpenAI Sorához. Képes egy percnél tovább tartó 1080p-s videókat generálni, illetve írásos utasítások alapján videókat szerkeszteni, de széles körben még nem adták ki.

A Veo állítólag magában foglalja a meglévő videók szöveges parancsok segítségével történő szerkesztését, a képkockák közötti vizuális konzisztencia fenntartását, és akár 60 másodpercig tartó videoszekvenciák létrehozását egyetlen promptból vagy narratívát alkotó promptok sorozatából. A cég azt állítja, hogy képes részletes jeleneteket generálni, és olyan filmes effektusokat alkalmazni, mint az időzítés, légi felvételek és különféle vizuális stílusok.

A DALL-E 2 2022 áprilisi bevezetése óta új képszintézis és videoszintézis modellek parádéját láthattuk, amelyek célja, hogy bárki, aki tud írásos leírást készíteni, részletes képet vagy videót készítsen. Bár egyik technológiát sem finomították ki teljesen, az AI kép- és videógenerátorok is folyamatosan egyre alkalmasabbakká váltak.

Februárban bemutattuk az OpenAI Sora videógenerátorának előzetesét, amelyről akkoriban sokan úgy gondolták, hogy az iparág által kínált legjobb mesterséges intelligencia-videó szintézis volt. Eléggé lenyűgözte Tyler Perryt, hogy felfüggesztette a filmstúdió bővítését. Eddig azonban az OpenAI nem biztosított általános hozzáférést az eszközhöz – ehelyett a tesztelők egy kiválasztott csoportjára korlátozták a használatát.

Most első pillantásra úgy tűnik, hogy a Google Veo képes a Sorához hasonló videógenerálásra. Mi magunk nem próbáltuk ki, így csak a cég által biztosított cseresznyeszemű bemutató videók mellett tudunk menni honlapján. Ez azt jelenti, hogy aki látja őket, az vegye sóval a Google állításait, mert a generációs eredmények nem biztos, hogy jellemzőek.

A Veo mintavideói között szerepel egy lovon lovagló cowboy, egy gyors lövés egy külvárosi utcán, grillezett kebab, időzített napraforgónyílás stb. Feltűnően hiányoznak az emberek részletes ábrázolásai, amelyeket a mesterséges intelligencia kép- és videómodellei számára történelmileg nehéz volt nyilvánvaló torzítások nélkül létrehozni.

A Google szerint a Veo a vállalat korábbi videógenerációs modelljeire épít, beleértve a Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phanaki, WALT, VideoPoet és Lumiere. A minőség és a hatékonyság növelése érdekében a Veo edzési adatai részletesebb videófeliratokat tartalmaznak, és tömörített “látens” videoreprezentációkat használnak. A Veo videógenerálási minőségének javítása érdekében a Google részletesebb feliratokat mellékelt a Veo betanítására használt videókhoz, lehetővé téve az AI-nek a felszólítások pontosabb értelmezését.

A Veo a filmkészítési parancsok támogatása terén is figyelemre méltónak tűnik: „Ha egy videóbeviteli és egy szerkesztési parancsot is kap, például kajak hozzáadása a tengerpart légi felvételéhez, a Veo alkalmazhatja ezt a parancsot a kezdeti videóra, és létrehozhat egy új, szerkesztett videót, “- mondja a cég.

Bár a demók első pillantásra lenyűgözőnek tűnnek (különösen ahhoz képest, hogy Will Smith spagettit eszik), a Google elismeri, hogy az AI-videók létrehozása nehéz. “A vizuális konzisztencia megőrzése kihívást jelenthet a videógeneráló modellek számára” – írja a vállalat. “A karakterek, tárgyak vagy akár egész jelenetek váratlanul villódzhatnak, ugrálhatnak vagy átalakulhatnak a képkockák között, megzavarva a megtekintési élményt.”

A Google ezeket a hátrányokat “korszerű látens diffúziós transzformátorokkal” próbálta mérsékelni, amelyek alapvetően értelmetlen, részletek nélküli marketinges halandzsa. De a cég elég magabiztos a modellben Donald Glover színésszel dolgozik együtt és stúdiója, a Gilga, hogy készítsenek egy mesterséges intelligencia által generált demófilmet, amely hamarosan premierre kerül.

A Veo kezdetben a kiválasztott alkotók számára lesz elérhető VideoFX, egy új kísérleti eszköz, amely elérhető a Google AI Test Kitchen webhelyén, a labs.google. Az alkotók feliratkozhatnak a VideoFX várólistájára, hogy a következő hetekben hozzáférhessenek a Veo funkcióihoz. A Google azt tervezi, hogy a jövőben integrálja a Veo bizonyos képességeit a YouTube Shortsba és más termékekbe.

Arról egyelőre nincs hír, hogy a Google honnan szerezte a Veo edzési adatait (ha találgatnunk kellett, valószínűleg a YouTube is érintett volt). A Google azonban azt állítja, hogy “felelősségteljes” megközelítést alkalmaz a Veo-val kapcsolatban. A cég szerint „A Veo által készített videók vízjellel vannak ellátva SynthIDélvonalbeli eszközünk a vízjelezéshez és a mesterséges intelligencia által generált tartalmak azonosításához, valamint biztonsági szűrőkön és memória-ellenőrzési folyamatokon ment keresztül, amelyek segítenek csökkenteni a magánélet védelmét, a szerzői jogokat és az elfogultság kockázatát.”

Leave a Reply

Your email address will not be published. Required fields are marked *