A Google MI-je hamarosan fizikát fog tanítani, miközben megtervezi a nyaralást és letiltja a telefonos csalókat

2024. május 15. – 04:20

Hétfőn megírtuk, hogy az OpenAI bejelentette az új mesterséges intelligenciás modelljét, ami nagyon menőnek és sci-fisnek tűnik. Ez bosszantó, ugyanis a Google a keddi i/o bemutatójának megnyitóján semmi másról nem beszélt, mint a Geminiről, a saját MI-s platformjáról, de a tegnapi után furán venné ki magát, ha megint arról írnánk, hogy a jövő megérkezett, vagy legalábbis belátható időn belül befut.

Pedig erről van szó. A Gemini a Google minden egyes szolgáltatásában ott van: legyen szó a keresőmotorról, a Gmailről vagy a felhőalapú vállalati szolgáltatásokról, mindenhol megpróbálják kiaknázni az MI erejét.

Ez nemcsak a fejlesztőknek izgalmas, mert ha minden úgy fog működni, mint a demóvideókban, akkor tényleg megérkezhetett az okos, valódi virtuális asszisztensek kora:

A különböző újítások közül van, ami már ma elérhető, például az, hogy több adatot lehet betáplálni egy kérdéshez, hogy a Gemini kimerítőbb választ, megoldást tudjon adni, de az elhangzottak alapján a legtöbb frissítés néhány hónapon belül kezd el kicsorogni először a bétatesztelőkhöz, később pedig a nagyközönséghez. Ez alapján nagyjából egy-két éven belül a Gemini már fizikát fog tanítani, miközben összeállítja a család heti menüsorát, megtervezi a nyaralást és visszaküldi a neten rendelt cipőt, ami túl kicsinek bizonyult.

Igen, fizikát (vagy igazából bármit) is tud tanítani. Ha a NotebookLM nevű Google-szolgáltatásban az ember feltölt egy csomó órai jegyzetet tankönyvet és igazából bármit, ami egy adott tárgyból fontos lehet, akkor a Gemini képes összeállítani egy hanganyagot, amiben két (virtuálisan generált) résztvevő közérthetően megvitatja, miről is szól az anyag. A felhasználó bármikor beleszólhat és kérdezhet, és a Gemini akár olyan példát is tud hozni, ami nem is szerepelt a betáplált adathalmazban. A prezentációban például arról volt szó, hogy a Gemini erőhatásokról beszélgetett magával, és, hogy segítsen iskolás gyerekének, a prezentáló megkérte, hogy hozzon egy kosárlabdás példát. És hozott.

Emellett hamarosan egész komplex feladatokat adhatunk majd a keresőnek (és így a Gemininek), ami viszonylag sok időt megtakaríthat. Például azzal, hogy mivel egyre okosabb és multimodális, azaz érti az írott és hallott szöveges inputot, és tudja értelmezni a képeket és videókat is, akár hosszú, összetett kérdésekre, parancsokra is tud reagálni. A bemutatón példaként rákerestek arra, hogy Boston egy adott részén hol van olyan, jó értékelést kapott piláteszstúdió sétatávolságban, ahol van valamilyen kedvezmény az első órákra. A Google Overview erre kidobott egy térképet és több olyan lehetőséget, amik, megfeleltek a kért paramétereknek.

Egy hasonló példa volt, hogy arra kérték meg, hogy rakja össze a heti menüt különböző kritériumoknak megfelelően, például hogy a receptek legyenek pénztárcabarátok vagy vegetáriánusok, és ezeket menet közben is lehet majd alakítgatni.

A harmadik látványos lehetőség az, hogy akár egy nyaralást is megtervez. Ha a felhasználó már kapott a Gmailbe egy visszaigazoló emailt a hotel- és repjegyfoglalásról, akkor elég lesz megkérni a Google-t, hogy a levelek alapján rakjon össze programokat úgy, hogy figyelembe veszi például azt, hogy egy résztvevő szereti a halas éttermeket, a másik pedig a művészetet. Az Overview egy itinerbe kidob több lehetőséget, kategorizálva, így válogatni is lehet a felajánlásokból.

Ezek mind nagyon jól hangzanak, de a bemutató során arról nem volt szó, hogy ez mégis hogy áll majd össze. Mármint azt említették, hogy a Gemini megkapja a kérést, összehúzza az adatokat a Gmailből és a netről, de amikor ajánl például egy vezetett sétálást, akkor nem tud elugrani Miamiba, hogy kipróbálja. Tehát jó eséllyel talált mondjuk egy blogot vagy egy cikket, amiben valaki írt arról, hogy elment egy múzeumba vagy kipróbált egy sétát, amiről aztán részletesen ír.

A Gemini viszont ezt csak összegezve adja át, esetleg inspirálódik belőle, és maximum egy linket rak majd az összegzés végére. De ha jól rakta össze, a legtöbben valószínűleg nem kattintanak majd tovább, így az, aki valós munkát végzett, és írt egy blogbejegyzést vagy csinált egy videót, amiben beszámolt az élményeiről, nem kap kattintásokat, pedig sok kisebb oldal ezekből él.

Egy másik példa: az ember örököl egy antik kakukkos órát, aminek csak az egyik ajtaja nyílik ki. A Google hamarosan – a Gemini segítségével – képes lesz arra, hogy egy videó és egy kérdés alapján válaszoljon. Tehát az örökös levideózza a rosszul működő órát, és megkérdezi a Google-t, mi a teendő. A kereső lehet, hogy egy lelkes hobbista oldalát találja meg (a nagyapjától tanulta a szakmát, de amúgy éjszakai portás, és tényleg csak azért készít videókat, hogy a szenvedélyét másokkal is megossza), aki rengeteg munkával és odaadással összerakott egy videót, hogy mi a teendő a beakadt kakukkosóra-ajtóval.

A Gemini által kiválogatott piláteszstúdiók értékelésekkel, távolsággal – Fotó: Google

Előfordulhat, hogy a Google egyszerűen csak összegzi majd, amit talál, így a lelkes hobbista valójában nem jut el azokhoz, akiknek a tartalma szól, ami ahhoz vezethet, hogy feladja a kakukkosóra-javító videózást. Persze ez részben elméleti, mert még nem tudjuk, hogy pontosan hogy is fog működni a teljesen kész, mindenkinek elérhető keresőújítás, de a Google már most is dob fel néha így találati eredményeket, például akkor, ha valaki egy videójátékhoz keres segítséget.

Arról nem is beszélve, hogy valószínűleg sokaknak feltűnt már, hogy a Google első keresési oldala egyre barátságtalanabb a felhasználóval, és az első néhány találat sokszor azért kerül oda, mert a hirdetők fizetnek a pozícióért. Erről egyáltalán nem volt szó a mai bemutatón, de nem elképzelhetetlen, hogy ez a hirdetési lehetőség később az Overview-ba vagy az útiterves megoldásba is beépül.

A Gemini a csaló telefonálókra is figyelmeztet majd. Ha azt hallja egy hívásban, hogy valaki azt állítja, hogy gyanús tranzakció volt a számlánkon, de a bank átrakná a pénzünket egy biztonságos helyre, akkor jelez, hogy „hoppá, figyelj, ez valószínűleg egy átverés”. Ez egy szuper és hasznos funkciónak tűnik, már csak azért is, mert nem arról van szó, hogy a Gemini lehallgat. Mármint de, de a hangelemzés és a felismerő folyamat minden lépése a telefonon történik, így nem kerülnek ki az elhangzott dolgok. A kérdés már csak az, hogy Magyarországon mikor lesz elérhető.

Mindezek mellett a generatív MI elengedhetetlen kreatív vénájáról is esett némi szó, de a lényeg az, hogy a Gemini által generált képek szebbek és élethűbbek, mint valaha, néhány zenész is nagyon szereti, és Donald Glover (Childish Gambino) le volt nyűgözve, hogy milyen érdekes vele forgatni (azaz videókat gyártatni). Viszont a generált képein és hanganyagaiban elrejtett Synth ID vízjel a Gemini által gyártott szövegekre és videókra is rákerül, hogy könnyebben legyen megmondani, hogy nem ember, hanem MI készítette ezeket. Sőt, a szöveges fájlokba kerülő vízjel forráskódját nyílttá teszik, hogy mások is felhasználhassák.

A Workspace-ben is besegít

Volt még egy másik geminis trükk, ami ígéretesnek tűnt: a Google Workspace szorosabb integrációja. Ezt rossz volt leírni, és valószínűleg olvasni sem jó, úgyhogy mondjuk inkább úgy, hogy lényegében arról van szó, hogy a Gemini segít összefogni például a Gmailbe érkező leveleinket, és azok alapján doksikat, táblázatokat csinál.

Akár több korábbi levelezésből is ki tudja majd nyerni a szükséges információt, és a kontextust is értelmezi majd. Itt a példa az volt, hogy a prezentáló fel akarja újítani a háza tetejét, és egy olyan levelezésben volt elrejtve az árajánlat, amiben 13 levélváltás történt. Először ezeket összegeztette a Geminivel, majd megkérte, hogy túrja át a bejövő leveleit, és rakja össze, hogy melyik vállalkozó mennyiért, milyen határidővel vállalná a munkát, hogy könnyebben tudjon választani. Az MI még a válaszlevelet is megírta helyette a kiválasztott vállalkozónak.

Vagy ha kíváncsi a költéseire, akkor megkérheti majd Geminit, hogy a visszaigazoló emailek alapján rakjon össze róluk egy táblázatot a Sheetsben. A demóban egy nagyon pofás, informatív és átlátható táblázat készült így, amiből az MI akár látványos ábrákat is össze tud rakni:

Táblázat a költésekről, amit a Gemini emailek alapján rakott össze – Fotó: Google

A kereső a Gmailben is hatékonyabb lehet, így a Gemini például egy témában anélkül is össze tudja majd gereblyézni nekünk a leveleket, hogy szűrőket állítanánk be, és ha kell, akkor még összegzi is ezeknek a tartalmát. Ez a funkció valószínűleg a Google Meetben zajló, felvett videómegbeszéléseknél is működik majd. Emellett a Fotók alkalmazásban is pontosabban dob majd fel képeket keresésekre, és akár bonyolultabb parancsokat is lehet majd adni, amik alapján összerak egy albumot.

Gemini a munkahelyeken is megjelenhet majd, méghozzá egy virtuális munkatárs ként. Ha szervezetek akarják, akkor összerakhatnak egy igényeikre szabott „geminiont”, ami kap egy saját emailcímet, és beleszólhat csetekbe, ami a demó alapján igencsak felgyorsíthatja a munkafolyamatot, például a korábbi egymillió üzenet, email és megosztott fájl átnyálazását.

Ezenkívül szó esett még

a Gemini 1.5 Pro különböző fejlesztéseiről,
a Gemini 1.5 Flash-ről, ami kicsit kevésbé fókuszált, mint a Pro, de sokkal gyorsabb és olcsóbb,
arról, hogy az androidos telefonokra letölthető Gemini alkalmazással hamarosan úgy lehet beszélgetni, mint egy igazi emberrel,
matekházik megoldásáról,
kódolásról,
arról, hogy a Gemini több infót tud majd megosztani képekről a látási problémákkal élő felhasználókkal,
vállalati megoldásokról.

A kétórás prezentációban viszonylag sok mindenről beszéltek, most az általánosabb közönségnek szóló új lehetőségekről írtunk. Ha érdeklik a nagyon nagy (vagy nagyon kicsi, attól függ) számok, a folyadékkal hűtött, óriási géppark, a fejlesztőkre célzott szolgáltatások, az új Trillium rendszercsip vagy a TPU-k és GPU-k, akkor a teljes prezentációt itt visszanézheti.

Kedvenceink

Partnereinktől

Kövess minket Facebookon is!