Все началось в начале декабря 2017 года, когда издание Motherboard написало про пользователя форумов Reddit под ником "deepfakes", который разработал алгоритм создания фейковых порно-видео и наложил на порно лица актрис Галь Гадот и Мэйси Уильямс, а также певицы Тэйлор Свифт. Выложенные на Reddit гифки заметили. Вот пример:
Заметили и то, что для их создания энтузиасту потребовались: оригинальный порно-ролик; инструмент TensorFlow, который разработали в Google и сделали бесплатно доступным для исследователей в области машинного обучения; видео с YouTube и фотографии актрисы для обучения алгоритма. А также немного свободного времени и не слишком мощный компьютер.
Что один человек сделал, другой завсегда повторить может, главное знать: это возможно. Поэтому неудивительно, что месяц спустя другой пользователь Reddit (а может быть и тот же самый, он анонимен и не признается), по имени "deepfakeapp", создал выложил в свободный доступ FakeApp, относительно простую программу с помощью которой любой энтузиаст может создавать "дипфейки", как стали называть фейковые видео, созданные с помощью искусственного интеллекта. По словам автора, он использовал алгоритм, похожий на тот, что использовал "deepfakes".
Разумеется, на Reddit тут же появилось целое сообщество (ОСТОРОЖНО! Содержимое сайта по ссылке: 18+!) из людей, которые используют FakeApp для создания фейковых роликов, накладывая лица знаменитостей на порно-видео.
Вот, например, фейковая актриса Джессика Альба (тело — порноактрисы Мелани Райос):
Этот тренд и "развлечение" настолько новые и неожиданные, а качество роликов настолько высоко, что на них попадаются традиционные "СМИ". Так, ресурс CelebJihad, который специализируется на новостях об утечках личных видео знаменитостей опубликовал у себя "никогда ранее не публиковавшееся видео обнаженной Эммы Уотсон, принимающей душ". Оно, разумеется, было "дипфейком".
Далеко не все вновь создаваемые ролики являются порнографией. Некоторые пользователи балуются политикой. Вот, например, что может получиться, если "скормить" искусственному интеллекту лицо Адольфа Гитлера и наложить результат на выступление президента Аргентины Маурисио Макри.
Все, что для этого нужно, это "достойный" компьютер с видеокартой с поддержкой технологии Nvidia CUDA, а также качественные фото и видео как оригинала, так и "цели" — человека, чей образ хочется использовать. Обработка короткого ролика занимает очень короткое — по меркам видео-индустрии — время, порядка 6-18 часов. Чем мощнее компьютер, тем быстрее результат. Никаких запредельных знаний не требуется, а это значит, что скоро "дипфейки" наводнят интернет и, разумеется, их станут использовать в том числе и в политической борьбе. В том числе и в Латвии.
Причем говоря про "скоро", мы говорим не про годы, а про месяцы! FakeApp "взлетело" за считанные недели, нет причин сомневаться в том, что к лету "дипфейки" станут обычным делом. Уверяем, вы скоро увидите их в своей ленте в "Фейсбуке", и в большом количестве.
Результат работы алгоритмов не идеален, но уже настолько хорош, что некоторые люди всерьез утверждают, что он может изменить киноиндустрию. На этом изображении вверху — оригинальный кадр из фильма "Изгой-один. Звёздные войны: Истории" с нарисованной на суперкомпоютерах молодой Кэрри Фишер. Внизу — этот же момент, но созданный с помощью технологии "дипфейков", используя ее образ из ранних "Звездных войн". Как говорится, найдите три отличия:
Понятно, что "дипфейки" появились не на пустом месте. В основе FakeApp судя по всему лежит инструмент Google TensorFlow. Компания Nvidia использовала похожий алгоритм, когда демонстрировала свою технологию, способную "на лету" изменять времена года на любом видео:
Несколько месяцев назад исследователи из Вашингтонского университета вложили в уста Барака Обамы слова, которых он не говорил, причем без всякой "склейки".
Несколько лет назад исследователи в Стэндфордском университете создали технологию Face2Face, способную "считать" выражение лица собеседника с веб-камеры и наложить их на любое видео. В UAB работают над решением, которое синтезирует речь, используя видео и аудио с YouTube, телевидения и радио.
То есть джин уже несколько лет как томился в стенах лабораторий. На рубеже 2017-2018 годов он просто дошел до такого состояния, что им — с помощью простой программы — может помыкать кто угодно. Он уже вырвался из бутылки и назад его не запихнешь.
Все идет к тому, что в очень обозримом будущем мы не сможем верить уже даже своим ушам и глазам — социальные сети будут наводнены не только фейковыми текстами (как уже произошло сегодня), но и фейковыми видео- и аудио-роликами. Смогут ли технологические компании побороть их, используя те же технологии искусственного интеллекта, что и породили "дипфейки"? Вряд ли. Ведь они уже несколько лет как не могут справиться с фейковыми текстовыми новостями.