二次元形象塑造,二次元人物形象制造

  二次元形象塑造,二次元人物形象制造

  点击上方“机器学习与生成对抗网络”,关注星标。

  获取有趣有趣的最先进的晾衣架!

  文章:机器的心脏

  通过输入面部图像,可以制作各种风格的动画图像。伊利诺伊大学香槟分校的研究人员发现,他们新的GAN迁移方法实现了“一对多”的世代效应。

  在GAN迁移的领域中,可以构建以面部图像作为输入并输出面部动画图像的映射。已经有很多相关的研究方法,比如腾讯微之前推出的迪士尼童话脸效应。

  在迁移过程中,可以保留映像的“内容”部分,但必须更改“样式”部分。这是因为同一张脸通过动画可以表现出多种方式。这意味着迁移过程是一个一对多的映射。该映射可以表示为用于接收内容代码(从面部图像恢复)和风格代码(潜在变量)并生成动画面部的函数。但是,必须遵守一些重要的限制。

  首先是控制。通过改变输入人脸来改变动画人脸的内容)例如,动画人脸应该通过改变输入人脸的方向来改变其方向)。

  那么使用相同潜变量呈现给动画的实际人脸,在不改变潜变量的情况下,必须是风格高度一致的(比如动画人脸不会因为改变人脸方向而改变风格)。

  最后是“覆盖”。通过内容和风格的结合可以得到每个动画工作者的脸,可以使用所有可能的动画形象。

  在最近的一项研究中,伊利诺伊大学香槟分校的研究人员提出了一种新的GAN迁移方法,gansnroses(简称gnr)。多模态框架使用样式和内容来直接格式化映射。简而言之,研究人员将人脸图像的内容代码作为输入,并输出一个带有许多随机选择的风格代码的动画图像。

  地址:https://arxiv.org/pdf/2106.06561.pdf

  GitHub项目地址:https://github.com/mchong6/gansnroses

  在技术上,研究人员根据简单高效的内容和风格定义来计算对抗性损失,保证了映射的多样性,即可以从单一内容代码生成各种风格的动画图像。在合理的假设下,这种映射不仅是多样化的,而且能够准确地表示输入人脸条件下动画图像的概率。相反,目前的多模式生成方法无法捕捉到动画的风格。大量定量实验表明,与SOTA方法相比,GNR方法可以生成更多风格的动画图像。

  GNR的生成效应是什么?首先,让我们看看演示图像中戴珍珠耳环的女孩的动画图像:

  目前用户还可以尝试,上传自己的图片,一键生成自己的动画形象。机器之心在葡萄牙球星克里斯蒂亚诺罗纳尔多的照片上尝试了这种效果。艾米。

  试验地点:https://gradio.app/hub/a K391/甘斯罗斯

  同时,GNR方法也可以在不需要任何视频训练的情况下实现视频到视频的传输。

  技术实现

  给定两个域并在其中生成不同的组,目标是使它们具有类似于x的语义内容。本研究阐述了域到域转换的细节。如图2所示,gansnroses由一个编码器E和一个解码器F组成,可以双向使用。e编码器将图像x分解为内容码c(x)和样式码c(x)。解码器接收内容代码和样式代码,并从中生成适当的图像。

  编码器和解码器一起构成一个发生器。在执行过程中,通过将图像传输到编码器,保留生成的内容代码c(x),获得其他相关的样式代码s_z,并将该对代码传输到解码器来使用生成器。本研究希望最终的动画内容由内容码控制,风格由风格码控制。

  图2甘斯玫瑰

  但是,什么是内容,什么是风格?GANs NRose的核心思想是将内容定义为事物的所在,将风格定义为事物的外观。这可以通过使用数据增强的思想来实现。选择一系列相关的数据扩展功能。在所有条件下,风格不变,内容不变。请注意,根据数据扩展条件下——个不同的数据扩展集,该定义将有不同的样式定义。

  确保风格的多样性

  为了帮助用户获得不同风格的漫画,目前有三种策略。首先,它可以很容易地从随机选择的风格码S _ Z中产生。第二,解码器具有s_z可以从解码器中恢复的性质;第三,您可以创建一个

  所确定的罚函数迫使不同类型的代码被不同地解码;但是这些策略并不令人满意。

  本研究为文体和内容的界定提供了一种新的方法。也就是说,我们必须学习一个映射F(c,s;),它使用内容码C和风格码S生成卡通人脸。它表示从数据中随机选择的单个图像,t (…)表示应用于图像的随机选择的增强函数,P(C)表示内容编码的分布,P(Y)表示真实动画的真实分布(等等。),也就是生成的动画图像。这里肯定有c (xi) p (c)。因为style被定义为在增强下不会改变的内容,所以合理选择的增强应该意味着c (t (x _ i)) p (c),也就是说,对一幅图像应用随机增强会导致内容编码是以前内容编码的一个例子。这个假设是合理的。如果严重违反,那么图像增强训练分类器就不起作用。

  损失函数是:

  实验结果

  在实验部分,实验以批次7, _ scon=10, _ cyc=20, _ adv=1进行。网络架构基于StyleGAN2[9],该架构的风格编码维数为8。Adam optimizer [12]用于300k批次迭代所有网络,学习率为0.002。在输入图像上使用的随机增强包括随机水平翻转、(20,20)之间的旋转、缩放(0.9,1.1)、平移(0.1,0.1)和裁剪(0.15)。图像放大到286 286,随机裁剪到256 256。主要使用Selfie2anime数据集[10]和AFHQ的附加实验[1]作为数据集。

  定性比较

  一般来说,给定相同的源图像和不同的随机风格码,GNR会产生不同的图像。风格决定了头发、眼睛、鼻子、嘴巴、颜色等的外观。而内容驱动姿势、脸型大小、面部部位位置等。图4显示GNR在质量和多样性上优于其他SOTA多模态框架。

  GNR生成的图像有不同的颜色、发型、眼睛形状、面部结构等。而其他帧只能生成不同的颜色。

  将多模态结果与SOTA偏移框架进行了比较。

  在图5中,这项研究还与AniGAN [14]进行了比较。请注意,即使AniGAN是在更大和更多样化的数据集上训练的,这项研究也可以生成更好、更多样化和更高质量的图像。此外,AniGAN是在128 128的分辨率下生成的,而本研究是在256 256的分辨率下生成的。

  下图所示的烧蚀实验表明,分集鉴别器在保证分集输出方面起着重要作用(图6)。实验结果表明,多样性鉴别器明显促进了GNR输出更加多样化和逼真的图像。

  定量比较

  在表1中,通过使用分集FID、FID和LPIPS来定量评估GNR。在表1的所有实验中,发现GNR在所有指标上都明显优于其他SOTA框架。DFID和LPIPS都注重图像的多样性,这些指标的得分定量地证实了本研究生成的图像的多样性优于其他框架。

  视频到视频迁移

  本研究中对风格和内容的定义是:当一张脸在一帧中移动时,风格不应该改变,但内容会改变。具体来说,内容编码特征的位置,而样式编码特征的外观。反过来,内容编码要捕捉所有的帧间运动,合成动画视频,不需要训练时间序列。

  本研究将GNR逐帧应用于人脸视频,然后将生成的帧组装成视频。3图中第2行的结果显示,GNR生成的图像根据信号源移动,同时保持一致的外观。

  猜您喜欢:

  等你着陆!【GAN生成对抗网络】知识星球!

  超100篇!CVPR 2020最全GAN论文梳理汇总!

  附下载 《Python进阶》 中文版

  附下载 经典 《Think Python》 中文版

  附下载 《Pytorch模型训练实用教程》

  附下载 最新2020dtdjz 《动手学深度学习》

  附下载 《可解释的机器学习》 中文版

  附下载 《TensorFlow 2.0 深度学习算法实战》

  附下载 超100篇!CVPR 2020最全GAN论文梳理汇总!

  附下载 《计算机视觉中的数学方法》 分享

郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。

留言与评论(共有 条评论)
   
验证码: