Administrator
发布于 2022-10-03 / 1 阅读
0

DeepFaceDrawing: Deep Generation of Face Images from Sketches

DeepFaceDrawing: 从素描中深度生成人脸图像

摘要

关键想法是隐含地对可信的人脸图像的形状空间进行建模,并在这个空间中合成一个人脸图像来接近输入的草图。我们采取了一种从局部到整体的方法。我们首先学习关键脸部组件的特征嵌入,并将输入草图的相应部分推向底层。输入草图的相应部分推向底层组件流形。脸部成分样本的特征向量所定义的底层成分流形。我们还提出了另一个深度神经网络来学习从嵌入的组件特征到多通道现实图像的映射。并将多通道特征图作为中间结果来改善信息流。我们的方法本质上使用 输入草图作为软约束,因此即使从粗糙和/或不完整的草图中也能产生高质量的面部图像。我们的工具很容易 甚至对非艺术家也是如此,同时仍然支持对形状细节的细粒度控制。

Component Embedding Module组件嵌入模块,由于人脸有一个清晰的 结构,我们将一张人脸草图分解为五个部分,分别表示为S c,c∈{1,2,3,4,5},分别表示 "左眼"、"右眼"、"鼻子"、"嘴 "和 "其余部分"。为了处理组件之间的细节,我们使用四个重叠的窗口来定义前四个组件,这些窗口以单个面部组件为中心(来自数据集中预先标记的分割掩码),与 "剩余 "部分相对应的 "剩余 "图像与原始素描图像相同,但去除了眼睛、鼻子和嘴。 在这里,我们把 "左眼 "和 "右眼 "分开处理,以最好地利用生成的脸部的灵活性(见图4中的两个例子)。 4). 为了更好地控制单个组件的细节,我们在每个脸部组件类型上学习一个局部特征嵌入。我们 我们通过使用五个自动编码器网络来获得各个组件的特征描述符。 五个自动编码器网络,表示为{Ec ,Dc },其中Ec是一个编码器,Dc是组件c的解码器。 编码器,Dc是组件c的解码器。

Feature Mapping Module特征映射模块。给定一个输入草图,我们可以将其各个部分投射到它的各个部分投射到组件流形上,以提高其可信度。一个可能的解决方案是,首先将投影的流形点的特征向量转换为真实的图像。图像的一种可能的解决方案是,首先使用学习到的解码器将投影流形点的特征向量转换回组件草图,然后执行组件级草图到图像的合成,最后将组件图像融合在一起,得到一张完整的脸。然而,这种直接的解决方案很容易导致合成结果在局部细节和整体风格方面的不一致,因为没有机制来协调各个生成过程。

Image Synthesis Module图像合成模块。考虑到组合的特征图,IS模块将其转换为现实的人脸图像。我们使用条件GAN架构来实现这个模块,它将特征图作为输入到生成器中,生成器由一个判别器引导。与pix2pixHD中的全局生成器一样,我们的生成器包含一个编码部分、一个残差块和一个解码单元。输入的特征图依次经过这些单元。与[Wang等人2018]类似,判别器被设计为以多尺度的方式确定样本:我们将输入取样到多个尺寸,并使用多个判别器来处理不同尺度的输入。我们利用这种设置隐含地学习各部分之间的高层关联。

Two-stage Training.二阶段训练,我们采用了一个两阶段的训练策略来训练我们的网络,使用我们的数据集 素描-图像对来训练我们的网络。在第一阶段,我们只训练CE模块,通过使用组件草图来训练五个单独的自动编码器 进行特征嵌入的训练。训练是以一种自我监督的方式进行的。输入的草图和重建的图像之间的均方误差(MSE)损失。素描图像和重建的图像之间的平均平方误差(MSE)。 在第二阶段,我们固定了训练好的组件编码器的参数,然后用调频和IS模块中的未知参数训练整个网络。以端到端的方式一起训练。对于IS中的GAN,除了 GAN损失,我们还加入了L1损失来进一步指导生成器,从而确保生成图像的像素质量。我们在判别器中使用了感知损失。来比较真实图像和生成图像之间的高层次差异。图像之间的差异。由于女性和男性肖像的不同特征,我们使用完整的网络进行训练,但将搜索空间限制在男性和女性。将搜索空间限制在男性和女性空间内进行测试。