Компанія ByteDance, китайський технологічний гігант, що стоїть за TikTok, щойно продемонструвала нову систему штучного інтелекту під назвою OmniHuman-1, яка може створювати deepfake-відео, що майже не відрізняються від реальності.
Для створення відео з нуля системі потрібна лише одна фотографія та аудіозапис. Також можна налаштувати такі елементи, як співвідношення сторін і кадрування тіла. ШІ може навіть змінювати наявні відеоматеріали, редагуючи такі речі, як рухи тіла та жести, до моторошної реалістичності, пише TechSpot.
Подивіться на цей TED Talk, якого насправді ніколи не було.
Звичайно, результати не є ідеальними на 100%. Деякі пози справді виглядають дещо незвично, як-от цей незграбний приклад тримання келиха з вином.
Є також лекція Ейнштейна, відтворена штучним інтелектом, де його руки крутяться в дивних напрямках. Проте його обличчя відтворено майже ідеально.
Однак, загальна якість значно випереджає попередні методи deepfake.
OmniHuman-1 навчений на 18 700 годинах відеоданих з використанням нового підходу «omni-conditions», який дозволяє йому навчатися на основі декількох джерел вхідних даних, таких як текстові підказки, аудіо та пози тіла одночасно. Дослідники ByteDance кажуть, що ці ширші навчальні дані допомагають ШІ «значно зменшити втрату даних» порівняно зі старими моделями глибокого фейку.
ByteDance ще не випустила OmniHuman-1 для широкого загалу, але можна прочитати статтю про цю модель.