Щоб змінити зовнішність, ще десять років тому потрібні були грим, маска чи пластична операція. Зараз досить кількох кліків — і Ілон Маск співає: «Земля в ілюмінаторі…», на місці Шарліз Терон у рекламі парфумів з'являється містер Бін, портрет Мони Лізи оживає, і її фірмова посмішка раптом втрачає впевненість. Все це стало можливим завдяки технології deepfake, яка геть-чисто позбавляє впевненості в справжності будь-якого відео, зате відкриває незвичайний простір для творчості та пригод вашого цифрового клону у віртуальних світах майбутнього.
Наївні питання
Діп… що?
Діпфейк - це відеоролик, в якому обличчя однієї людини підміняється іншою за допомогою алгоритмів машинного навчання. У цьому слові поєднані два поняття: глибоке навчання нейромереж (deep learning) та підробка (fake).
Як ця штука працює?
Існує кілька способів створити «обманку», але їх поєднує загальний принцип. Ім'я йому – GAN, генеративно-змагальна мережа (generative adversarial network). Це алгоритм машинного навчання, побудований на змаганні двох нейромереж. Одна зветься Генератором, вона створює фальшивки. Інша, Дискримінатор, виступає у ролі експерта, який намагається відрізнити підробку від оригіналу. Чим краще Генератор обманює Дискримінатора, тим більш правдоподібним виглядає дипфейк.
Хто створив перший діпфейк?
Пращуром дипфейків став наприкінці ХХ століття цифровий клон актора — поняття, яке прийшло з кіноіндустрії .Зовнішність і голос померлого або живого актора відтворювали за допомогою донейромережевої технології CGI (computer-generated imagery — зображення, згенеровані комп'ютером), отримуючи віртуальну модель людини. Вважається, що ера дипфейків почалася наприкінці 2017 року, коли користувач із ніком DeepFakes виклав на Reddit кілька відео з контентом 18+. На них акторкам із відео для дорослих були «прироблені» обличчя голлівудських зірок. Технологія швидко розійшлася в інтернеті і запустила хвилю створення схожого контенту. У недавньому дослідженні нідерландська компанія з кібербезпеки Deeptrace виявила, що ролики 18+ становлять 96% від загальної кількості дипфейків: на момент дослідження їх було близько 15 тисяч у всій Мережі.
Як простій людині зробити діпфейк?
Це не так складно. У зроблених за допомогою алгоритму Face2Face відеороліках користувачі приміряють на себе особи знаменитостей. "Обманка" створюється в режимі реального часу і спотворює міміку вибраної зірки слідом за мімікою користувача. У соцмережі Reddit у січні 2018 року з'явилася схожа технологія – додаток FakeApp. Російська розробка DeepFaceLab та програма Reface дозволяють вставляти обличчя у відео, змінювати рух губ і саму мову.
Діпфейки небезпечні?
Здається вже так. Перші подібні відеоролики були поганої якості, підробки легко розпізнавались, але технологія швидко еволюціонує. У міру вдосконалення дипфейків розширюється їхнє застосування у кримінальній сфері. Тепер шахраї генерують голос для дзвінків по телефону та створюють компрометуючі відеоролики для шантажу. А що у майбутньому? За прогнозами експертів, діпфейки можуть стати загрозою національній безпеці. Повсюдний збір біометричних даних створює додаткові ризики: фейкове зображення можна використовувати разом з фейковыми відбитками пальців чи слідами ДНК.
Хто ж урятує нас?
Соціальні мережі - Twitter, TikTok, Reddit - вже розробляють і застосовують політику захисту користувачів від фальшивок. У деяких країнах питання із підробками вирішують на законодавчому рівні. У Китаї такі ролики маркуються, у деяких штатах США, наприклад, у Каліфорнії, заборонено поширювати діпфейки з політиками перед виборами. У Франції запровадили санкції за монтаж мови або зображення людини без її згоди.
GAN: самовчитель для нейромереж
Як була створена і де застосовується найважливіша з нових технологій машинного навчання
Якось увечері докторант Монреальського університету Ян Гудфеллоу посперечався з друзями за кухлем пива. Приятелі поділилися з ним ідеєю: вони хотіли створити нейромережу, яка буде вигадувати особи людей, що ніколи не існували. Виходило не дуже. На згенерованих зображеннях не вистачало то вуха, то носа, а найчастіше всі деталі ніби були на місці, але портрет більше був схожим на шизоїдну аплікацію із вирізаних частин обличчя з дивними пропорціями, в супереч нормальній фізіономії.
Розробники планували виправити хворобливий творчий стиль нейромережі, змусивши її аналізувати безліч реальних фотографій. Але Гудфеллоу їх висміяв. Для цього потрібні були б такі обчислювальні потужності, яких у його приятелів просто не було. Так що в них нічого не вийде, якщо тільки… Якщо тільки не створити другу нейронну мережу, яка критикуватиме першу, а потім не стравлюючи їх, змусити сперечатися, поки вони не видаватимуть зображення потрібної якості. Цього разу поблажливо посміхнулися вже друзі Гудфеллоу: яка тільки нісенітниця не спаде на думку до кінця вечора у знаменитому монреальському шинку «Три пивовари»! На тому й розійшлися.
Але замість того, щоб лягти спати і вранці забути своє п'яне осяяння, Ян Гудфеллоу прийшов додому і вмостився за комп'ютер. Незабаром на світ з'явився алгоритм, який наділив машини силою уяви. Завдяки глибокому навчанню вони вже були здатні бачити, чути та розпізнавати. Дайте мережі достатньо зображень, і вона навчиться, скажімо, відрізняти на знімках пішохода, який збирається перейти дорогу. Так з'явилися автопілоти та Siri з Алісою.
Але як щодо творчості — створення нової картини чи симфонії? До GAN штучний інтелект не був здатний до творчості. Новий алгоритм звільнив людину від необхідності бути наставником для машин: завдяки суперництву між двома нейромережами система навчається сама в себе. Це діалог антагоністів, що працюють в одній команді, ніби фальшивомонетник, який все більш майстерно підробляє купюри, і поліцейський, який вишукує дедалі тонші способи впізнати підробку. Навчання триває, доки алгоритм не почне плутатися, де фальшивка, а де оригінал. Це означає, що машина навчилася створювати щось унікальне, але при цьому не відмінне від реальності. Наприклад, особу ніколи не існуючої людини, яку ви не відрізните від фото реальної людини. Хіба це не називають творчістю?
Картинками та картинами, створеними штучним інтелектом за допомогою GAN, вже нікого не здивувати. Найвідоміша з них була продана на знаменитому лондонському аукціоні Christie's за 432,5 тисяч доларів. У назві "шедевра" - портрета якогось Едмона Беламі - вгадується привіт батькові GAN: французькою bel ami означає "добрий друг". Приблизно так перекладається з англійської прізвище Гудфеллоу.
Дітище Гудфеллоу допомогло заробити не лише художникам, а й спеціалістам з комп'ютерних спецефектів. Раніше, щоб створити вигадану реальність, їм були потрібні мільйони доларів, 3D-сканування акторів та великі комп'ютерні потужності. Але щоб поміняти місцями обличчя каскадера та актора, досить ноутбука. За допомогою GAN можна серйозно покращити якість зображення: нейромережа «додумує» фрагменти, що бракують, завдяки чому ми дивимося старі мультфільми в HD-якості, а медики можуть у всіх деталях розглянути знімок, зроблений у поганому розрішенні.
У 2017 році компанія NVIDIA навчила нейронну мережу змінювати погоду та час доби на відео. Дослідники з Університету Карнегі — Меллона створили алгоритм, здатний накласти міміку однієї людини на особу іншої. А фахівці Вашингтонського університету навчили нейромережу стежити за тим, як людина на відео ворушить губами, зіставлятиме її міміку зі звуками, а потім перетворювати аудіозаписи на реалістичне відео. Тобто голосового повідомлення тепер достатньо, щоб отримати відео людини, яка вимовляє цю промову. Розробники з Facebook AI Research взагалі навчили свою нейромережу розпізнавати людину, що рухається, на відео і довільно змінювати його рухи: управляти героєм на відео можна так само, як персонажем у комп'ютерній грі. А можна ще й фон довкола поміняти.
GAN вміє працювати у тому числі з голосом: нейромережам достатньо послухати кілька хвилин запису, щоб максимально достовірно підробити мову людини. Так ми і потрапили в чудовий світ deepfake, в якому нічому не можна вірити. Поки що нейромережа залишає масу цифрових слідів, і спеціальні фільтри можуть відрізнити оригінал від підробки. Але з кожним днем удосконалюються алгоритми.
І все-таки головне, що робить GAN, - це не перемальовування осіб, а створення самостійних машин. Поки що ШІ-програмістам доводиться підбирати нейромережам матеріал для навчання — наприклад, повідомляти, які зображення містять пішоходів, що перетинають дорогу, а які ні. Але незабаром потреба в цьому відпаде. Комп'ютери будуть краще справлятися з необробленими даними і зможуть самі зрозуміти, чому їм треба навчитися. Недарма Ян Лекун, голова лабораторії штучного інтелекту у Facebook, назвав GAN найкрутішою ідеєю глибокого навчання за останні 20 років.
Здатність уявляти і розмірковувати над різними сценаріями — це частина того, що робить нас людьми. І в цьому сенсі GAN наближає штучний інтелект до людського.
Фото: GOOGLE.COM