A legjobb AI bejelentések a Google I/O-tól | EatchbQ

The top AI announcements from Google I/O

A Google mindent megtesz a mesterséges intelligencia terén – és szeretné, ha tudnád. A vállalat keddi I/O fejlesztői konferenciáján tartott vitaindító előadásán a Google több mint 120-szor említette az „AI”-t. Az sok!

De a Google mesterséges intelligenciájának nem mindegyik bejelentése volt önmagában jelentős. Némelyik fokozatos volt. Másokat újrafogtak. Ezért, hogy segítsünk szétválogatni a búzát a pelyvától, összeszedtük a legjobb új mesterséges intelligencia-termékeket és -szolgáltatásokat, amelyeket a 2024-es Google I/O-n mutattak be.

A Google azt tervezi, hogy a generatív mesterséges intelligencia segítségével rendszerezi a Google összes keresési eredményoldalát.

Hogyan fognak kinézni a mesterséges intelligencia által szervezett oldalak? Nos, ez a keresési lekérdezéstől függ. De képesek megjeleníteni az AI által generált összefoglalókat a véleményekről, a közösségi médiából, például a Redditből származó megbeszélésekről és a mesterséges intelligencia által generált javaslatlistákat, mondta a Google.

A Google egyelőre azt tervezi, hogy mesterséges intelligencia által továbbfejlesztett eredményoldalakat jelenít meg, ha azt észleli, hogy a felhasználó ihletet keres – például utazást tervez. Hamarosan ezeket az eredményeket is megjeleníti, amikor a felhasználók étkezési lehetőségeket és recepteket keresnek, a filmekre, könyvekre, szállodákra, e-kereskedelemre és még sok másra is.

Project Astra és Gemini Live

Kép jóváírása: Google google

A Google továbbfejleszti mesterséges intelligencia által hajtott Gemini chatbotját, hogy jobban megértse az őt körülvevő világot.

A cég bemutatta a Gemini új élményét, a Gemini Live-t, amely lehetővé teszi a felhasználók számára, hogy “mélyreható” hangcsevegést folytathassanak a Geminivel okostelefonjaikon. A felhasználók megszakíthatják a Gemini-t, miközben a chatbot beszél, hogy tisztázó kérdéseket tegyen fel, és valós időben alkalmazkodik a beszédmintáikhoz. A Gemini pedig láthatja a felhasználók környezetét, és reagálhat rá, akár fényképeken, akár az okostelefonjuk kamerájával rögzített videókon keresztül.

A Gemini Live – amely csak idén indul – válaszolhat olyan kérdésekre, amelyek egy okostelefon kamerája előtt állnak (vagy mostanában láthatók), például, hogy a felhasználó melyik környéken tartózkodhat, vagy egy sérült alkatrész neve. autó bicikli. A Live-ot működtető technikai újítások részben a Project Astra-ból erednek, amely a DeepMind új kezdeményezése, amely mesterséges intelligencia-alapú alkalmazásokat és „ügynököket” hoz létre a valós idejű, multimodális megértéshez.

Google Veo

Jaj
Kép jóváírása: Google

A Google keresi az OpenAI Sora with Veo-t, egy mesterséges intelligencia modellt, amely szöveges felszólításra körülbelül egy perces 1080p-s videoklipeket tud készíteni.

A Veo különféle vizuális és filmes stílusokat tud rögzíteni, beleértve a tájképeket és az időzítéseket, valamint szerkesztheti és módosíthatja a már elkészített felvételeket. A modell meglehetősen jól megérti a kamera mozgását és a VFX-et a felszólításokból (gondoljunk csak olyan leírókra, mint a “pan”, “zoom” és “explosion”). A Veo pedig eléggé ért a fizikához – olyan dolgokhoz, mint a folyadékdinamika és a gravitáció –, ami tovább növeli az általa generált videók valósághűségét.

A Veo támogatja a maszkolt szerkesztést is a videó bizonyos területeinek módosításához, és állóképekből is tud videókat generálni, olyan generatív modelleket, mint a Stability AI Stable Video. Talán a legérdekesebb, hogy a Veo hosszabb videókat tud készíteni – egy percnél hosszabb videókat, ha egy sor felszólítást adnak, amelyek együttesen mesélnek el egy történetet.

Kérjen képeket

Kép jóváírása: TechCrunch

A Google Fotók mesterséges intelligencia infúziót kap az Ask Photos nevű kísérleti funkció elindításával, amelyet a Google Gemini generatív AI modellcsaládja hajt.

Az Ask Photos, amely a nyár végén indul, lehetővé teszi a felhasználók számára, hogy természetes nyelvű lekérdezések segítségével kereshessenek a Google Fotók gyűjteményében, amelyek segítségével a Gemini megérti a fényképeik tartalmát – és egyéb metaadatokat.

Például ahelyett, hogy egy adott dologra keresnének egy képen, mint például a „One World Trade”, a felhasználók sokkal szélesebb körű és összetettebb kereséseket hajthatnak végre, például megtalálhatják a „legjobb képet az egyes nemzeti parkokból” Ebben a példában az Ikrek olyan jeleket használnak, mint a világítás, az elmosódás és a háttér torzításának hiánya, hogy meghatározzák, mi teszi a képet a „legjobbá” egy adott halmazban, és ezt kombinálja a földrajzi hely információival és a dátumokkal, hogy visszaadja a képet. releváns képeket.

Gemini a Gmailben

Kép jóváírása: TechCrunch

A Gmail-felhasználók hamarosan kereshetnek, összegezhetnek és piszkozatokat készíthetnek e-mailjeikben a Gemininek köszönhetően, valamint az e-mailek alapján összetettebb feladatokat is végezhetnek, mint például a visszaküldések feldolgozásának segítése.

Az I/O bemutatóján a Google megmutatta, hogyan tud a szülő lépést tartani a gyermeke iskolájában zajló eseményekkel, és megkérte Geminit, hogy foglalja össze az iskolától kapott összes legutóbbi e-mailt. Az e-maileken kívül a Gemini a mellékleteket, például a PDF-eket is elemzi, és összefoglalja a legfontosabb pontokat és a cselekvési pontokat.

A Gmail egyik oldalsávjáról a felhasználók megkérhetik a Geminit, hogy segítsen nekik megszervezni az e-mailjeikből származó nyugtákat, és akár egy Google Drive-mappába is elhelyezheti őket, vagy információkat nyerhet ki a nyugtákból, és illessze be őket egy táblázatba. Ha ezt gyakran csinálja – mondjuk üzleti utazóként, aki követi a költségeket –, a Gemini felajánlhatja a munkafolyamat automatizálását is a jövőbeni használatra.

Csalás észlelése hívás közben

Kép jóváírása: Google

A Google egy mesterséges intelligencia által vezérelt funkciót jelenített meg, amely hívás közben figyelmezteti a felhasználókat a lehetséges csalásokra.

A képesség, amely az Android jövőbeli verziójába kerül beépítésre, a Gemini Nano-t, a Google generatív mesterséges intelligencia-kínálatának legkisebb verzióját használja, amely teljes egészében az eszközön futhat, hogy valós időben figyelje meg a „csalásokkal gyakran összefüggő beszélgetési mintákat”.

Nincs konkrét megjelenési dátum a funkcióhoz. Mint sok ilyen dolog, a Google is megvizsgálja, mennyi mindenre lesz képes a Gemini Nano az úton. Azt azonban tudjuk, hogy a funkció opcionális lesz – ami jó dolog. Bár a Nano használata azt jelenti, hogy a rendszer nem tölti fel automatikusan a hangot a felhőbe, a rendszer továbbra is hatékonyan figyeli a felhasználók beszélgetéseit – ez potenciális adatvédelmi kockázat.

AI az akadálymentesítésért

Kép jóváírása: Google

A Google egy kis generatív mesterséges intelligencia varázslattal fejleszti a TalkBack kisegítő lehetőségeket Androidra.

Hamarosan a TalkBack megérinti a Gemini Nano elemet, hogy hangos leírásokat készítsen tárgyakról látássérült és vak felhasználók számára. Például a TalkBack a következőképpen írhat le egy ruhadarabot: “Fekete-fehér gyöngyszem ruha közeli felvétele. A ruha rövid, gallérral és hosszú ujjal. A derekát nagy masni köti össze.”

A Google szerint a TalkBack-felhasználók körülbelül 90 címkézetlen képpel találkoznak naponta. A Nano használatával a rendszer képes lesz betekintést nyújtani a tartalomba – esetleg lemondani arról, hogy valakinek manuálisan be kell írnia ezeket az információkat.

AI hírlevelet indítunk! Regisztráció itt hogy június 5-én kapja meg a postaládájába.

További információ a Google I/O 2024-ről a TechCrunch oldalon

Leave a Reply

Your email address will not be published. Required fields are marked *