Utánajártunk a köztévé mesterséges intelligenciával létrehozott műsorvezetőjének

2024. április 17. – 19:23

Utánajártunk a köztévé mesterséges intelligenciával létrehozott műsorvezetőjének
Bíró Ada, a virtuális műsorvezető – Forrás: Médiaklikk

Másolás

Vágólapra másolva

„Minden, amit látnak és hallanak, egy számítógép rakott össze minimális emberi segítséggel” – mondta Bíró Ada hétfőn a Dunán tavaly ősszel újraindult, Delta nevű ismeretterjesztő műsor új évadában. Bíró Ada ezzel némileg rendhagyó módon saját magára célzott, ugyanis ő nem egy valódi ember, hanem egy mesterséges intelligenciával (MI) létrehozott virtuális avatár, ami (aki?) Fejős Ádám műsorvezető szavai szerint egy olyan technikai fejlesztés, amit nemhogy a magyar televíziózásban, de még külföldön sem nagyon láthattak a nézők.

Az elmúlt évek MI-őrületének fényében persze egyáltalán nem meglepő, hogy Bíró Ada létrejött, úgy meg aztán pláne nem érdemes rácsodálkozni, hogy Kínában már 2020-ban megcsinálták az első háromdimenziós hírolvasót, és azóta csak nőtt ezeknek a száma. Azt viszont el lehet hinni a köztévének, hogy a legkorszerűbb módszereket használták a megalkotásához, mert Bíró Ada tényleg váratlanul élethűnek tűnik, még ha a szakértő szerint vannak is bizonyos korlátai. Összeszedtük, mit lehet tudni róla, és tényleg akkora kuriózum-e ez, amekkorának beállítják – na meg hogy tényleg egy hús-vér műsorvezetőn alapulhat-e.

Mekkora újdonság ez egyáltalán?

Ugyan Fejős igazi kuriózumként mutatta be hétfőn Bíró Adát, azt érdemes leszögezni, hogy a virtuális műsorvezetők műfaja annyira nem újdonság, hogy az első ilyet 2000-ben mutatták be Ananova néven. Ananovát olyan, akkoriban népszerű celebekről mintázták, mint Victoria Beckham és Kylie Minogue, de hiába merült már fel akkor is, hogy elveszi a bemondók munkáját, négy évvel később nyugdíjazták a digitális avatárt. A Bíró Adához vezető útnak viszont ez csak a legeleje volt, és ha szigorúan vesszük, az igazából csak 2018-ban kezdődött, amikor

a kínai Hszinhua hírügynökség a Sogou nevű kínai céggel közösen bemutatta az első olyan virtuális bemondóit, amelyek gépi tanulással tudták jobban szimulálni a valódi emberek gesztusait, arcmimikáját és hangját.

2020-ban aztán a Sogou megalkotta az első háromdimenziós virtuális bemondót is, innentől pedig már nem kellett sokat várni, hogy elszabaduljon a máig tartó MI-őrület, és a szöveges tartalomgyártást letaroló nagy nyelvi modellek mellett a deepfake-ek rohamos fejlődésével a mesterséges intelligencián alapuló hírolvasók is megjelenjenek. Tavaly állt munkába az indiai Sana és Lisa, a görög Hermes, a kuvaiti Fedha, a tajvani Ni Zhen és a dél-koreai Zae-In is, az MI-alapú hírközlésre rápörgő Channel 1 pedig tényleg kényelmetlenül élethű bemondókat mutatott be.

Abban persze vannak különbségek, hogy melyiket hogyan valósítják meg. Zae-In esetében egy Guardiannek adott interjúból kiderült, hogy valójában több, különböző készségekkel felruházott modell kelti életre, akiknek arcát valós időben alakítják át mesterséges intelligenciával, de a jövőben az alkotó Pulse9 szerint minimálisra csökkentenék a modellek szerepét. A Channel 1-nál inkább digitális dublőrökről van szó, azaz valódi emberek beszkennelt modelljei alapján keltik életre MI-vel a virtuális avatárokat. Emellett vannak teljesen a nulláról generált alakjaik is, de ezek még mindig inkább hasonlítanak videójátékos karakterekre, mint valódi emberekre. A társalapító Scott Zabielski azonban már tavaly nyáron is arról beszélt, hogy el fog jönni az a pont, ahol már nem lehet megkülönböztetni őket a valódi emberektől.

A Sogou első háromdimenziós virtuális bemondója 2020-ból – Forrás: Sogou
A Sogou első háromdimenziós virtuális bemondója 2020-ból – Forrás: Sogou

A Telex kérdésére ezt mondta Kovács Dominik, az MI-vel videókat generáló magyar Colossyan alapítója is. Azt ő is hangsúlyozta, hogy ilyen MI-műsorvezetők eddig is voltak már, de ettől még érdekes a dolog, és szerinte időjárás-jelentésre, hírbemondásra lehet is használni az ilyen megoldásokat. Szakmai szemmel nézve Bíró Ada szerinte jól meg lett csinálva, de az jó kérdés, hogy mennyire lehet majd újrahasználni.

Mit lehet tudni Bíró Adáról?

Egyelőre nem túl sok minden derült ki róla, a virtuális avatár ugyanis saját maga közölte a műsorban, hogy „üzleti titokra” hivatkozva nem árulhatják el, hogy pontosan hogyan zajlott az összerakásának a folyamata. Bíró Ada annyit árult el, hogy több MI-modell együttes használatával jött létre, és állítólag a legmodernebb nyelvi, videós és képi modellt használták, hogy szépen beszéljen magyarul, élethűen mozogjon, és szépen tudjon nézni. Hogy pontosan mik ezek a modellek, azt lehetetlen kívülállóként megmondani, de valószínűleg nyílt forráskódú eszközökről lehet szó.

Miután a köztévé a legtöbb hasonló modell készítőjéhez hasonlóan nem osztotta meg, hogy az avatár hogy készült, csak találgatni lehet, de valószínű, hogy a Channel 1-éhoz hasonló módszert alkalmaztak. Erre utal az is, hogy – ahogy arra Makay József kiberbiztonsági szakértő is rámutatott kedden – Bíró Ada a körmei, illetve a karkötője és az okosórája alapján kísértetiesen hasonlít az M1 meteorológusára, Molnár Csillára. Bíró Adát amúgy akkor is joggal lehetne MI-alapúnak nevezni, ha csak egy deepfake arc lenne Molnár testén, de valószínűleg inkább az történt, hogy a meteorológus modelljét használták fel a teljesen virtuális Bíró megalkotásához.

Kovács Dominik szerint is úgy tűnik, hogy egy 3D-s szkenneléses történetről van szó, de mint mondta, biztosan más technológiával készült, mint amit ők használnak – többek közt azért is, mert az nyilvánosan nem elérhető. Náluk az a cél, hogy az arcmimika illeszkedjen ahhoz a szöveghez, amit a virtuális avatár éppen mond. Ehhez korábban másfél órányi felvétel kellett, ahol angol nyelvtörőket mondott az alany a kamerába, és így kreáltak a fejéből egy háromdimenziós modellt, amit aztán a hanghullámok alapján tudtak mozgatni. Az utóbbi években ez sokkal realisztikusabb lett, illetve most már nagyjából tíz másodpercnyi felvétel is elég,

de ez csak az arc, és most tart ott a piac, hogy a fej többi részén is dolgoznak, azaz bólogatásra vagy pislogásra bírják az avatárokat, a kézmozdulatok és a ruhák realisztikus mozgása pedig egyelőre a Colossyannél is csak a kutatási fázisban van.

A folyamatosan gesztikuláló, sétálgató Bíró Adát tehát szinte biztos, hogy nem ilyen módszerrel készítették, ezért Kovács Dominik szerint kérdéses, hogy mennyire moduláris, azaz mennyire lehet majd újra felhasználni egy másik adásban. Mint mondta, ha az avatár valahogyan mozgatja a kezét, akkor mindig úgy fogja mozgatni, nem fog a szöveg alapján máshogy gesztikulálni, ezért hosszú távon csak akkor tud működni, ha mindig beszkennelnek hozzá egy valódi embert. Kovács azt is leszögezte, hogy olyan technológia még nem létezik, ahol csak egyszer kell beszkennelni valakit, és onnantól az avatár mindig működik.

Az tehát biztos, hogy Bíró Ada megalkotásához használtak mesterséges intelligenciát, de valószínűleg nyíltan elérhető megoldásokkal dolgoztak, így az egész technológiai szempontból elmarad a piacvezető cégek megoldásaitól, még ha amúgy jól néz is ki. Azt is teljes egészében a Delta szerkesztői határozzák meg, hogy mit mond, szóval nem valós időben beszélget Fejős Ádámmal, hanem előre megírt szöveget mond el. Ez amúgy nem is meglepő, mert bár az Nvidia több látványos techdemóban is bemutatott egy valós idejű megoldást, a gyakorlati használattól azért még nagyon messze vagyunk:

Bíró Adának a tévés szereplése mellett van egy február eleje óta létező Facebook-oldala is, ahol csillagászati témában oszt meg cikkeket és eseményeket, és influenszereket megszégyenítő, MI által generált képeket posztol valódinak tűnő leírásokkal arról, hogy dolgozik, fut és könyvtárba megy. Az újabb posztjaiban azt is egyértelművé teszi, hogy nem létezik, de ez az oldal leírásában egyelőre nincs benne. Egy hétköznapinak tűnő emailcíme viszont meg van adva, ami tényleg hozzá tartozik, mert az ide küldött kérdéseinkre válaszoltak is, igaz, itt már nem tettek úgy, mintha Bíró Ada válaszolt volna. A választ aztán kicsivel később vissza is vonták arra hivatkozva, hogy az még nem a hivatalos válaszuk volt, hanem csak egy vázlat, és későbbre ígérték a teljes változatot, ami a cikkünk megjelenéséig nem érkezett meg.

Ez lehet a jövő?

Ha a fejlődés üteme megmarad, akkor könnyen lehet, hogy igen. A Channel 1 például annyira hisz az egészben, hogy a tavalyi, bő húszperces MI-híradós bemutatója óta is többször hangsúlyozta, hogy idén fel akarja pörgetni a dolgokat. Azt ugyanakkor fontos kiemelni, hogy ezzel nem akarják kitúrni az emberi munkaerőt, elvégre emberi szerkesztőkkel dolgoznak, akik a gyakori hallucinációkat (amikor a generatív modellek légből kapott dolgokat költenek a valósághoz) is gyomlálják, és Adam Mosam, a Channel 1 másik társalapítója szerint a hatékonyságot és a személyre szabhatóságot is növelő MI mellett számos megbízható szervezettel és szabadúszó újságíróval terveznek együtt dolgozni.

A Channel 1 célja lényegében az, hogy MI-sítse a hagyományos tévés hírműsorokat, hogy ebben a formátumban mutasson be a saját tartalmak mellett alapból csak írásos formában megjelenő cikkeket egy rakás nyelven és a technológia segítségével sokkal nagyobb mennyiségben, mint amire egy hagyományos médium képes. Arra is tettek ígéreteket, hogy elejét veszik a véleménybuborékoknak, és tényleg pártatlanul közlik a híreket, amit megvalósítani sokkal nehezebb lesz, de papíron jól fest. Mások viszont nem biztos, hogy ennyire komolyan veszik majd az etikai kereteket vagy az emberi felülvizsgálat fontosságát, azaz

hosszú távon könnyen lehet, hogy sokkal lejjebb kerül a mérce, pláne, ha az egyre jobb technológia olyan könnyen hozzáférhető marad, mint most, miközben a deepfake-ek már manapság is egyre több problémát okoznak.

Nem kell sokat keresgélni ahhoz az interneten, hogy az ember MI-avatárokra szakosodott cégeket találjon. Az MI-alapú fordításban élen járó kínai iFLYTEK például konkrétan hírolvasó avatárral is házal, de elméletben többek közt a DeepBrain, a Kreado AI, az Hour One és a már emlegetett magyar Colossyan megoldásaival is lehet ilyeneket létrehozni. És persze a generatív MI két titánja, az OpenAI és a Google is gőzerővel dolgozik a saját, már most is elképesztő videógeneráló modelljein.

Fizetni sem feltétlenül kell az élethű avatárokért, tavaly például bárki által hozzáférhető programokkal is könnyen sikerült meggyőző deepfake-et csinálni a CNN-es Anderson Cooperből, és a nulláról is tudtak egészen élethű bemondónőt generálni, ez pedig a technológia fejlődésével csak még jobb lesz. Nem véletlenül volt a hollywoodi színészsztrájkban is kulcsfontosságú, hogy a színészeket megvédjék az MI által generált felvételek jogosulatlan felhasználásától, ami már most problémát jelent a gyakorlatban is, nemrég például törölni kellett azt a George Carlin komikusnak létrehozott új stand-up műsort, amin Carlint MI-vel keltették életre.

Kedvenceink
Partnereinktől
Kövess minket Facebookon is!