Pohľad do zákulisia generovania videa pomocou umelej inteligencie by dnes vyzeral inak, než si väčšina ľudí predstavuje. Namiesto vytvárania videa obrázok po obrázku, ako je tomu napríklad pri stop-motion animácii, moderné AI modely ako Sora od OpenAI alebo Google Veo 2 využívajú tzv. difúzne modely, ktoré spracúvajú celé video naraz. Výsledkom je síce veľmi reálny výstup, ale proces je pomalý a neumožňuje robiť rýchle zmeny počas generovania.
Výskumníci z MIT CSAIL a Adobe Research preto vytvorili nový hybridný systém s názvom CausVid, ktorý kombinuje výhody oboch prístupov. Funguje tak, že veľký a výpočtovo náročný difúzny model slúži ako učiteľ, ktorý naučí jednoduchší autoregresívny model. Podobne ako študent preberá vedomosti od skúseného pedagóga. Tento študent potom dokáže vytvárať videá oveľa rýchlejšie, a pritom si zachováva vysokú kvalitu a konzistenciu obrazu.
Mohlo by vás zaujímať:
- Google Gemini si konečne zapamätá, čo mu poviete
- Ryža s nízkymi emisiami metánu: menej plynov, viac úrody
- Koralové útesy čelia najrozsiahlejšiemu blednutiu v histórii
CausVid umožňuje napríklad zmeniť obyčajnú fotografiu na pohyblivú scénu, rozšíriť existujúce video alebo upraviť dej počas generovania. Používateľ môže zadať základný textový príkaz a následne ho interaktívne dopĺňať, napríklad z “muž prechádza cez cestu“ na “muž si zapisuje poznámky, keď dorazí na druhý chodník“. Tento postup značne zrýchľuje celý proces a znižuje ho z 50 krokov len na niekoľko pár krokov.
Pohyby sú realistickejšie
V testoch CausVid vytváral 10- až 30-sekundové videá rýchlejšie a kvalitnejšie než iné známe modely ako OpenSORA alebo MovieGen. Získal najvyššie skóre v oblastiach ako kvalita obrazu či realistické pohyby ľudí. Model taktiež dosiahol rýchlosť až 100-krát vyššiu oproti konkurencii, čo otvára cestu k interaktívnemu využitiu v hrách, výučbe robotov alebo celkovej synchronizácii videa s prekladom zvuku v reálnom čase.
Vďaka takejto hybridnej architektúre môže byť generovanie videa nielen rýchlejšie, ale aj ekologickejšie. Experti dodávajú a zároveň aj chvália, že CausVid môže priniesť nový štandard pre video obsah vytváraný pomocou AI – s dôrazom na rýchlosť, stabilitu a praktické využitie.
Zdroj: TechXplore