A Google Veo mesterséges intelligenciával generált 1080p videókat készít több mint egy percen keresztül | EatchbQ

A Google Veo mesterséges intelligenciával generált 1080p videókat készít több mint egy percen keresztül

A Google bejelentette a „Veo” névre keresztelt, úttörő új mesterséges intelligencia-modellt, amely a felhasználók kreatív elképzeléseihez igazodva videógenerálást fog végezni. A Google továbbfejleszti képgeneráló modelljét is, így az Imagen 3-ban a harmadik generációra hozza.

Bard volt az egyik első ízelítő a modern mesterséges intelligencia LLM-ekből a Google alatt. Ez a verzió körülbelül egy éve jelent meg először, és az elmúlt hónapokban jelentős változások történtek a platformon. Az egyik legnagyobb változás a teljes névváltoztatás volt, a felhasználók számára készült mesterséges intelligencia eszközt átkeresztelték Gemini névre, amely mára a vállalat termékpalettáján elterjedt a Gemini Nano-val a jelenlegi és a közelgő eszközökben, valamint a Gemini Pro-val.

Közvetlenül azelőtt, hogy a Bardot átkeresztelték Geminire, a Google hozzáadta a képek kérésének lehetőségét az AI-beszélgetési modellen keresztül. Ha egy tehénről kér egy képet egy hajón, az pontosan ezt adná le, bármilyen stílusban is, amilyennek jónak látja. Ezt a folyamatot az Imagen 2 hajtotta, amely volt az első nyilvánosan elérhető verzió.

A Google Veo modellje

A Google ma két kreatív generációs modellt jelent be, a Veo-t és az Imagen 3-at. A Veo a legizgalmasabb, hiszen ezt a közönség még nem próbálhatta ki. A modell kifejezetten videógenerálásra készült, a vizuális szemantika és a természetes nyelv megértésére, hasonlóan más modern modellekhez. A videógeneráláshoz alkalmazott megközelítés olyan eredményeket hoz, amelyek kreatívan szabhatók az adott stílusokhoz.

A Google megjegyzi, hogy a Veo modell képes lesz megérteni a “filmes kifejezéseket” a felhasználói utasításokban, mint például a légifotók és a timelapse formátumok. A Veo képes 1080p-ben olyan videókat generálni, amelyek több mint egy percig is eltarthatnak, felülmúlva a jelenlegi modelleket, mint például az OpenAI Sora, amely maximum 60 másodpercig tart.

A Veo több éves generatív videomodellezési munkánkra épít, beleértve a Generatív lekérdezési hálózatot (GQN), a DVD-GAN-t, az Imagen-Video-t, a Phanakit, a WALT-t, a VideoPoet-et és a Lumiere-t – az architektúrát, a méretezési törvényeket és más új technikákat egyesíti a minőség és a kimeneti felbontás javítása érdekében. .

A Google arra kéri az alkotókat és a filmkészítőket, hogy a Veo-t igyekezzenek úgy alakítani, hogy a művészi stílusok és felhasználások széles skálájához illeszkedjen.

3. kép

Az Imagen modell is jelentős frissítést kap. Az Imagen 3 a Google „legjobb minőségű” szöveg-képmodellje, és néhány fejlesztést kínál a Gemini és Bard esetében látott Imagen 2 modellhez képest.

Az Imagen 3 állítólag magasabb szintű részletgazdagságot biztosít a képeken anélkül, hogy a létrehozott képekben annyi vizuális műtermék és szennyeződés lenne. A képek fotorealisztikusabbak és élethűbbek, ha kérik.

A legnagyobb fejlesztés talán az Imagen 3 szöveg megjelenítési képessége. Komikus gyengéjévé vált a szöveg-képes modelleknek, mint például a DALL-E és az Adobe Firefly. A Google úgy pozicionálja az új modellt, hogy személyre szabott szöveges képeket készítsen, például üdvözlőlapokat vagy üzeneteket tartalmazó képeket. Hogy valójában milyen jól jeleníti meg a szöveget, az még kiderül, de ez ígéretes fejlesztés.

A Veo és az Imagen 3 is elérhető lesz privát előnézetben a Google Labs VideoFX-en keresztül. A VideoFX a SynthID segítségével biztosítja, hogy a létrehozott tartalom digitálisan vízjellel legyen ellátva és felelősségteljesen generálva legyen.

Azok jelentkezhetnek, akik egy körre szeretnék vinni az új modelleket a Google várólistáján keresztül.

FTC: Jövedelemszerző automatikus kapcsolt linkeket használunk. Több.

Leave a Reply

Your email address will not be published. Required fields are marked *