Команда Google продемонструвала модель просторово-часової дифузії Lumiere на основі штучного інтелекту. З її допомогою можна створювати реалістичні відео за текстовим описом тривалістю до п’яти секунд.
Це не перший генератор відео на основі ШІ, адже навіть у Google раніше створювали модель Imagen Video. Вона створює ролики з роздільною здатністю 1280 на 768 пікселів із частотою 24 кадри на секунду, але її творіння куди скромніші за можливостями. Про цю нейромережу ми раніше писали в Ком’юніті.
Як повідомляє 3DNews, Lumiere відрізняється від інших існуючих аналогів унікальною архітектурою – відео по всій його тривалості генерується за один підхід. Водночас інші моделі створюють відео на базі кількох ключових кадрів, після чого проводять інтерполяцію за часом, що ускладнює узгодженість створюваного ролика.
Lumiere працює в декількох режимах, наприклад, є перетворення тексту у відео, конвертація статичних зображень у динамічні, створення відео в конкретному стилі на основі зразка. Також є можливість редагувати наявне відео за текстовими підказками, анімування певних ділянок статичного зображення або редагування відео за фрагментами, наприклад, зміна предмета гардероба на людині.
Зазначається, що поки що це лише дослідницький проєкт, і за його допомогою компанія планує дати можливість користувачам-початківцям генерувати візуальний контент із творчим і більш гнучким підходом. Однак все одно присутній ризик використання технології для неправомірного створення підробок або шкідливого контенту.