AI让图片动起来，特朗普和蒙娜丽莎深情合唱《Unravel》

wy168 发表于 2022-8-28 06:49:41

<div id="193a2427-46db-469b-8100-7d8021480dff" style="font-size:18px;margin:20px 0px;text-align:left;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/5accc511114b4c6bbfd7c32011d10d96~noop.image?_iz=58558&from=article.pc_detail&x-expires=1660566100&x-signature=Bu73%2F1KEMwMvFYJ7Al1xGKhkTWg%3D" style="width:100%;"></div><h1 id="384d64d7-922d-43a6-922d-87340e6dd918" style="font-size:20px;margin:20px 0px;font-weight:700;">1前言</h1>让一张图片，动起来，应该怎么做？DeepFake 一阶运动模型，让万物皆可动。利用这项技术，用特朗普和蒙娜丽莎的图片，合唱一首《Unravel》，是什么效果？今天，它来了！今天，继续手把手教学。算法原理、环境搭建、效果实现，一条龙服务，尽在下文！<h1 id="aae4a432-92c8-43ef-9d55-a87da7464a03" style="font-size:20px;margin:20px 0px;font-weight:700;">2算法原理</h1>First Order Motion，也就是一阶运动模型，来自 NeurIPS 2019 论文。「First Order Motion Model for Image Animation」论文最初的目的是让「静态图片」动起来。如下图所示：你动，它也动。<div id="1b568cd0-1694-44a5-a820-20ee1b64e844" style="font-size:18px;margin:20px 0px;text-align:left;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/53ea2c834b7e4e7393858d44d123f013~noop.image?_iz=58558&from=article.pc_detail&x-expires=1660566100&x-signature=ZqVMNj2vfHhBtU8ygDSCrb2rawU%3D" style="width:100%;"></div>这个模型可以轻易地让「权利的游戏」中的人物模仿特朗普进行讲话，还可以让静态的马跑起来等。<div id="472ef2e2-75c4-4c28-84ba-175feb916f13" style="font-size:18px;margin:20px 0px;text-align:left;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/a25658c2e7ac4118b75cb9cc803832d3~noop.image?_iz=58558&from=article.pc_detail&x-expires=1660566100&x-signature=AjUZYhU7nEE0kR%2BuPo%2FH6zqiPJY%3D" style="width:100%;"></div><div id="d4d040f0-f163-4d39-9d95-295b0b43cdf9" style="font-size:18px;margin:20px 0px;text-align:left;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/0d6848ee8abf4f419df5aaec54d41721~noop.image?_iz=58558&from=article.pc_detail&x-expires=1660566100&x-signature=YHuk6kehAxybLmDx5k2p5FTK%2FYU%3D" style="width:100%;"></div>一阶运动模型的思想是用一组自学习的关键点和局部仿射变换来建立复杂运动模型。模型由运动估计模块和图像生成模块两个主要部分组成。<div id="86d07cc7-812b-43ce-9f18-2930b9c6a361" style="font-size:18px;margin:20px 0px;text-align:left;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/8120090afe3547d19b2e000546fd2753~noop.image?_iz=58558&from=article.pc_detail&x-expires=1660566100&x-signature=IC6NycdB%2BTrj2T661lUNpgLVde0%3D" style="width:100%;"></div>首先进行关键点检测，然后根据关键点，进行运动估计，最后使用图像生成模块，生成最终效果。在运动估计模块中，该模型通过自监督学习将目标物体的外观和运动信息进行分离，并进行特征表示。而在图像生成模块中，模型会对目标运动期间出现的遮挡进行建模，然后从给定的图片中提取外观信息，结合先前获得的特征表示，生成图片。作者使用该算法在四个数据集上进行了训练和测试。VoxCeleb 数据集、UvA-Nemo 数据集、The BAIR robot pushing dataset、作者自己收集的数据集。其中，VoxCeleb 是一个大型人声识别数据集。它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音，同时数据基本上是性别平衡的（男性占 55％），这些名人有不同的口音、职业和年龄。<div id="0e541902-9362-4c91-8407-c81b047460ab" style="font-size:18px;margin:20px 0px;text-align:left;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/a76baf7e195748c0b3aa8e27ff35d72f~noop.image?_iz=58558&from=article.pc_detail&x-expires=1660566100&x-signature=qWiq79wtUDlUOUH0aVaqXNIbKaE%3D" style="width:100%;"></div>First Order Motion 利用了这个数据集的视频图像，进行了模型训练。我们就可以利用这个训练好的，人脸的运动估计模型，完成我们今天的任务。「特朗普和蒙娜丽莎的深情合唱」。除了需要用到这个一阶运动模型，还需要使用 OpenCV 和 ffmpeg 做视频、音频和图像的处理。具体的实现，在下文的「效果实现」中说明。<h1 id="61d6989d-ed07-40fb-90e7-2e0f37778061" style="font-size:20px;margin:20px 0px;font-weight:700;">3环境搭建</h1>效果实现上，我们可以直接用已有的库去实现我们想要的功能。「Real Time Image Animation」项目地址：私信333，即可给你分享！！！Python 为什么这么受欢迎，就是因为这一点。有很多开源项目，方便我们快速实现自己想要的功能，极大降低了开发成本。真是，谁用谁知道啊。环境搭建，还是建议使用 Anaconda，安装一些必要的第三方库，可以参考这篇开发环境搭建的内容：《Pytorch深度学习实战教程（一）：语义分割基础与环境搭建》这个项目需要用到的第三方库，也都写的很全：https://github.com/anandpawara/Real_Time_Image_Animation/blob/master/requirements.txt直接使用 pip 安装即可：<pre id="bb46cbd1-4176-4118-a405-3223f6fa2e65" style="font-size:18px;margin:20px 0px;text-align:left;"><code id="4b8393cb-721f-4874-b1e6-f1905134c1b1" style="font-size:18px;margin:20px 0px;text-align:left;">python-mpipinstall-rrequirements.txt</code></pre>此外，为了处理音频和视频，还需要配置 ffmpeg。安装好 ffmpeg 并配置好环境变量即可。ffmpeg 下载地址：https://ffmpeg.zeranoe.com/builds/<h1 id="8ce3b7a9-56f7-411b-9809-ab5fa38b6603" style="font-size:20px;margin:20px 0px;font-weight:700;">4效果实现</h1>实现也非常简单。首先，整理一下思路：「Real Time Image Animation」使用一阶运动模型，根据已有视频，让静态图动起来。<div id="00a97346-dceb-4d15-8ba0-a30b5f215059" style="font-size:18px;margin:20px 0px;text-align:left;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/875fa05c921346c8bdf954c68f4cad08~noop.image?_iz=58558&from=article.pc_detail&x-expires=1660566100&x-signature=ryc1UHz0B0aqgF%2BKA0BtsPnGcnQ%3D" style="width:100%;"></div>左图为原始图片，中间为生成结果，右侧为原始视频。但是，这个项目只能处理图像，不能保留音频。所以，我们需要先将音频保存，再将处理好的视频和音频进行合成。这个功能，就用我们下载好的 ffmpeg 实现。编写如下代码：<pre id="b05de659-4232-463b-8a42-6876b565ebf1" style="font-size:18px;margin:20px 0px;text-align:left;"><code id="6a9ef995-a1f1-4fd5-b038-88b351bdde5e" style="font-size:18px;margin:20px 0px;text-align:left;">importsubprocessimport osfrom PILimportImagedef video2mp3(file_name):""" 将视频转为音频 :param file_name: 传入视频文件的路径 :return: """outfile_name = file_name.split(.)[0] +.mp3cmd =ffmpeg -i+ file_name +-f mp3+ outfile_name subprocess.call(cmd, shell=True)defvideo_add_mp3(file_name, mp3_file):""" 视频添加音频 :param file_name: 传入视频文件的路径 :param mp3_file: 传入音频文件的路径 :return: """outfile_name = file_name.split(.)[0] +-f.mp4subprocess.call(ffmpeg -i+ file_name +-i+ mp3_file +-strict -2 -f mp4+ outfile_name, shell=True)</code></pre>搞定，视频转音频，以及音频合成都搞定了。我们需要对「Real Time Image Animation」这个项目进行修改，修改 image_animation.py 文件。<pre id="6ff04c58-554b-4af1-aa53-b284321f0b35" style="font-size:18px;margin:20px 0px;text-align:left;"><code id="994c28e4-f8b7-447c-9805-dc09f9510f59" style="font-size:18px;margin:20px 0px;text-align:left;">importimageioimport torchfrom tqdmimporttqdmfrom animateimportnormalize_kpfrom demoimportload_checkpointsimport numpy as npimport matplotlib.pyplot as pltimport matplotlib.animation as animationfrom skimageimportimg_as_ubytefrom skimage.transformimportresizeimport cv2import osimport argparseimport subprocessimport osfrom PILimportImagedef video2mp3(file_name):""" 将视频转为音频 :param file_name: 传入视频文件的路径 :return: """outfile_name = file_name.split(.)[0] +.mp3cmd =ffmpeg -i+ file_name +-f mp3+ outfile_nameprint(cmd) subprocess.call(cmd, shell=True)def video_add_mp3(file_name, mp3_file):""" 视频添加音频 :param file_name: 传入视频文件的路径 :param mp3_file: 传入音频文件的路径 :return: """outfile_name = file_name.split(.)[0] +-f.mp4subprocess.call(ffmpeg -i+ file_name +-i+ mp3_file +-strict -2 -f mp4+ outfile_name, shell=True)ap = argparse.ArgumentParser()ap.add_argument("-i","--input_image", required=True,help="Path to image to animate")ap.add_argument("-c","--checkpoint", required=True,help="Path to checkpoint")ap.add_argument("-v","--input_video", required=False, help="Path to video input")args = vars(ap.parse_args())print(" loading source image and checkpoint...")source_path = args[input_image]checkpoint_path = args[checkpoint]ifargs[input_video]: video_path = args[input_video]else: video_path = Nonesource_image = imageio.imread(source_path)source_image = resize(source_image,(256,256))[..., :3]generator, kp_detector = load_checkpoints(config_path=config/vox-256.yaml, checkpoint_path=checkpoint_path)ifnot os.path.exists(output): os.mkdir(output)relative=Trueadapt_movement_scale=Truecpu=Falseif video_path:cap= cv2.VideoCapture(video_path)print(" Loading video from the given path")else:cap= cv2.VideoCapture(0)print(" Initializing front camera...")fps =cap.get(cv2.CAP_PROP_FPS)size = (int(cap.get(cv2.CAP_PROP_FRAME_WIDTH)),int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT)))video2mp3(file_name = video_path)fourcc = cv2.VideoWriter_fourcc(M,P,E,G)out1 = cv2.VideoWriter(output/test.avi, fourcc, fps, (256*3,256), True)out1 = cv2.VideoWriter(output/test.mp4, fourcc, fps, size, True)cv2_source = cv2.cvtColor(source_image.astype(float32),cv2.COLOR_BGR2RGB)with torch.no_grad() : predictions = [] source = torch.tensor(source_image.astype(np.float32)).permute(0,3,1,2)ifnot cpu: source = source.cuda() kp_source = kp_detector(source) count =0while(True): ret, frame =cap.read() frame = cv2.flip(frame,1)ifret == True:ifnot video_path: x =143y =87w =322h =322frame = frame frame1 = resize(frame,(256,256))[..., :3]ifcount ==0: source_image1 = frame1 source1 = torch.tensor(source_image1.astype(np.float32)).permute(0,3,1,2) kp_driving_initial = kp_detector(source1) frame_test = torch.tensor(frame1.astype(np.float32)).permute(0,3,1,2) driving_frame = frame_testifnot cpu: driving_frame = driving_frame.cuda() kp_driving = kp_detector(driving_frame) kp_norm = normalize_kp(kp_source=kp_source, kp_driving=kp_driving, kp_driving_initial=kp_driving_initial, use_relative_movement=relative, use_relative_jacobian=relative, adapt_movement_scale=adapt_movement_scale) out = generator(source, kp_source=kp_source, kp_driving=kp_norm) predictions.append(np.transpose(out[prediction].data.cpu().numpy(), [0,2,3,1])[0]) im = np.transpose(out[prediction].data.cpu().numpy(), [0,2,3,1])[0] im = cv2.cvtColor(im,cv2.COLOR_RGB2BGR) joinedFrame = np.concatenate((cv2_source,im,frame1),axis=1) joinedFrame = np.concatenate((cv2_source,im,frame1),axis=1) cv2.imshow(Test,joinedFrame) out1.write(img_as_ubyte(joinedFrame)) out1.write(img_as_ubyte(im)) count +=1ifcv2.waitKey(20) &0xFF== ord(q):breakelse:breakcap.release() out1.release() cv2.destroyAllWindows()video_add_mp3(file_name=output/test.mp4, mp3_file=video_path.split(.)[0] +.mp3)</code></pre>然后下载算法需要的权重文件和视频图片素材。<div id="42a59ada-f4b6-4760-8a7d-32961b5783d5" style="font-size:18px;margin:20px 0px;text-align:left;"><img src="https://p3-sign.toutiaoimg.com/tos-cn-i-qvj2lq49k0/a7d2638328ad44839e88a335acb683f8~noop.image?_iz=58558&from=article.pc_detail&x-expires=1660566100&x-signature=eoAPlXjIVbc6ALGreUXFfqeSbRE%3D" style="width:100%;"></div>修改好的代码、权重文件、视频图片素材，我都已经打包好了，拿来直接用也可以。下载链接（密码:amz5）：https://pan.baidu.com/s/1TEd7SOaO5mzPaxpOh2pALQ运行命令：<pre id="6e89e875-c169-4b54-8ffe-2ef888c91fa1" style="font-size:18px;margin:20px 0px;text-align:left;"><code id="383e084d-6132-4e56-aa46-e844aec3b6b6" style="font-size:18px;margin:20px 0px;text-align:left;">pythonimage_animation.py-ipath_to_input_file-cpath_to_checkpoint-vpath_to_video_file</code></pre>path_to_input_file 是输入的模板图片。path_to_checkpoint 是权重文件路径。path_to_video_file 是输入的视频文件。如果使用我打包好的程序，可以使用如下指令直接运行，获得文章开头的视频：<pre id="9d719754-0ec2-4719-9cfa-ca86a1368dc4" style="font-size:18px;margin:20px 0px;text-align:left;"><code id="31c94f9a-f230-4d8c-8ad4-ef74bdf096b3" style="font-size:18px;margin:20px 0px;text-align:left;">pythonimage_animation.py -i Inputs/trump2.png -c checkpoints/vox-cpk.pth.tar -v1.mp4</code></pre>最后生成的视频存放在 output 文件夹下。大功告成！<h1 id="ccaa427d-af64-4d53-97ac-1403fc0172aa" style="font-size:20px;margin:20px 0px;font-weight:700;">5最后</h1>算法处理视频的速度很快，用 GPU 几秒钟就能搞定。

页: [1]

泓嘉网创's Archiver

AI让图片动起来，特朗普和蒙娜丽莎深情合唱《Unravel》