szerző:
hvg.hu
Tetszett a cikk?

Már egy videón is látni, mire képes egy kínai startup és egyetem által fejlesztett videógenerátor, a Vidu. Bár a viszonyítási alap az OpenAI Sora, látszólag még nem tart ott minden tekintetben.

Egyetlen kattintással tud legfeljebb 16 másodperces FullHD videókat generálni a Shengshu Technology nevű kínai startup, valamint a Tsinghua Egyetem közösen fejlesztett mesterséges intelligenciája, a Vidu.

A képességeit tekintve az OpenAI Sorára hajazó modell a fejlesztői elmondása szerint egy saját fejlesztésű arhitektúrára épül, melyet Universal Vision Transformernek (U-ViT) neveztek el.

Ez – írja a The Global Times – két szöveg-videó modellt egyesít, a Diffusiont és a Transformert. A végeredmény, hasonlóan a Sorához, valósághű videók, dinamikusnak ható kameramozgás, részletes arckifejezések, árnyékok és fények – a kiadott videó alapján azonban kicsit olyan, mintha a mozgások a gyakorlatban kevésbé lennének olyan dinamikusak, mint az OpenAI modelljénél:

Meet Vidu, A New Chinese Text to Video AI Model

China’s Shengshu Technology and Tsinghua University have unveiled Vidu AI, a text-to-video model capable of generating 16-second clips at 1080p resolution with a single click. Article with more details – https://www.maginative.com/article/china-unveils-vidu-a-powerful-text-to-video-generator/ Shengshu Technology website (chinese) – https://www.shengshu-ai.com/home?ref=maginative.com

Egy dologban azonban biztosan le van maradva a Sorához képest: míg az OpenAI modellje akár egyperces videókat is képes generálni, a kínai Vidunál 16 másodperc a limit.

Nemrég a Microsoft is bemutatott egy videógeneráló MI-t, igaz, a VASA-1 némileg más: egy fotó alapján, szöveges parancsok mentén kelti életre a képet. Például a Mona Lisát.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.