Згідно з дослідницькою роботою під назвою «VLOGGER: мультимодальна дифузія для синтезу втіленого аватара», для створення відео достатньо лише однієї фотографії та аудіозапису, з яких ШІ зробить аватара, що говорить відповідно аудіо, робить відповідні вирази обличчя, рухи головою і жести руками, пише VentureBeat.
Дослідники використали дифузійні моделі, які нещодавно показали чудову продуктивність у створенні дуже реалістичних зображень із текстових описів. Розширивши їх у сферу відео та навчившись на величезному новому наборі даних, команда змогла створити систему штучного інтелекту, яка може оживляти фотографії дуже переконливим способом.
«На відміну від попередньої роботи, наш метод не вимагає навчання кожної людини, не покладається на розпізнавання обличчя та кадрування, генерує повне зображення (а не лише обличчя чи губи) і враховує широкий спектр сценаріїв (наприклад, видимі торс або різноманітні суб’єктні ідентичності), які мають вирішальне значення для правильного синтезу людей, які спілкуються», — пишуть автори.
Ключовим фактором стала підготовка величезного нового набору даних під назвою MENTOR, який містить понад 800 000 різноманітних ідентифікаторів і 2200 годин відео — на порядок більше, ніж було доступно раніше. Це дозволило VLOGGER навчитися створювати відео людей різної етнічної приналежності, віку, одягу, поз і оточення без упередженості.
Технологія може автоматично дублювати відео іншими мовами, просто замінюючи аудіодоріжку, легко редагувати й заповнювати відсутні кадри у відео, а також створювати повноцінні відеоролики про людину з одного кадру.
Цю технологію також можна використовувати для створення фотореалістичних аватарів для віртуальної реальності та ігор, віртуальних помічників і чат-ботів, які будуть більш привабливими та виразними.
Google вважає, що VLOGGER допоможе створювати «розмовних агентів», які можуть взаємодіяти з людьми природним шляхом за допомогою мови, жестів і зорового контакту. «VLOGGER можна використовувати як самостійне рішення для презентацій, навчання, розповіді, спілкування в інтернеті з низькою пропускною здатністю, а також як інтерфейс для текстової взаємодії людини з комп’ютером», — пишуть автори статті.
Однак ця технологія також має потенціал для зловживання, наприклад, для створення дипфейків. Оскільки створені штучним інтелектом відео стають більш реалістичними та їх легко зробити, це може загострити проблеми, пов’язані з дезінформацією та цифровими підробками.
VLOGGER все ж має обмеження. Згенеровані відео відносно короткі та мають статичний фон. Люди не пересуваються в 3D-середовищі.