Egyetlen fénykép és egy hangsáv elég ahhoz, hogy egy mesterségesintelligencia-modell élő deepfake-videót készítsen rólunk

2024. április 20. – 13:24

Másolás

Vágólapra másolva

A Microsoft bemutatta azt a VASA-1 névre hallgató mesterségesintelligencia-modell programját, ami egy meglévő fénykép és egy hangsáv segítségével képes szinkronizált animált videót készíteni egy beszélő vagy éneklő személyről – írja a ArsTechnica.

Ez azt jelenti, hogy ez a program képes arra, hogy élő avatart – hasonlót, mint amilyen nemrég a közmédián, a Delta című műsorban debütált – hozzon létre rólunk, pusztán egy kép és a hangunk segítségével. Ez lehetővé teszi, hogy bárki, aki hasonló eszközökkel rendelkezik, fényképet készíthessen egy online személyről, és úgy tűnjön, hogy azt az adott illető mondja.

A program gépi tanulást használ egy statikus kép és egy beszédhangklip elemzéséhez. Ezután képes egy valósághű videót generálni, pontos arckifejezésekkel, fejmozgásokkal és a hanggal szinkronizált ajkakkal. Nem klónozza vagy szimulálja a hangokat (mint a Microsoft más fejlesztései), hanem egy meglévő hangbemenetre támaszkodik, amelyet kifejezetten egy adott célra lehet felvenni vagy beszéltetni.

A Microsoft szerint az új modell jelentősen felülmúlja a korábbi beszédanimációs módszereket, sokkal valósághűbb és hatékonyabb. A programot YouTube-videók segítségével tréningezték, a példák között szerepel egy olyan videó is, ahol Mona Lisa rappel egy olyan hangsávra, amelyen Anne Hathaway egy „Paparazzi” dalt ad elő Conan O'Brien műsorában.

Kedvenceink
Partnereinktől
Kövess minket Facebookon is!