1.1 引言

多视图学习的目的是联合使用来自不同视图的信息,这些视图可能捕获于多个来源或不同的特征子集。近年来,通过整合多视图数据上不同视图的多样性的深度学习方法已经得到了广泛的应用,并表现出了强大的能力。许多工作已经表明,在大规模数据上预训练的网络可以被利用于其他相关的任务。因此,考虑到跨域人脸图像具有相同的几何结构和身份,本章节引入了一个人脸解析模型精细地解析人脸成分作为结构视图,并引入一个人脸识别模型提取人脸图像的身份表示作为身份视图,我们将这些相关任务的大规模数据中学习的多视图信息迁移到人脸翻译这一数据规模有限的场景,提出了一个多视图知识(结构知识和身份知识)集成框架MvKE(Multi-view Knowledge Ensemble),用于跨域人脸翻译任务。具体而言,结构模块通过将人脸解析为人脸成分掩码(即像素级标签)来提供结构知识,然后将其映射到目标域的相应图像上。在这里,我们将结构模块的中间特征级联到翻译网络中以增加有效信息,但同时也引入了冗余信息。为了保留有用的特征表示,同时避免潜在的错误,我们引入了一个基于通道注意力的知识聚合模块,并根据从身份模块中学到的知识进一步约束它们,以保持独特的身份。目前还没有方法尝试将为相关任务设计的不同模型的多视图知识同时集成到图像翻译网络中,本文通过大量的实验证明了我们的方法的有效性。

此外,我们发现现有方法中使用的像素级生成损失忽略了真实图像和生成图像之间的频率一致性,导致生成的图像出现结构变形(高频信息)和颜色偏差(低频信息)等问题。受最近一些方法利用频域分析辅助解决深度学习任务的启发,在本章节中,我们将首次通过约束生成图像中的高、低频信息来优化图像到图像的翻译任务的频域映射。具体而言,我们提出了一种新的频率一致性(FC)损失,它由多方向普里威特mPrewitt(multi-direction Prewitt)损失和高斯模糊损失组成。其中mPrewitt损失是为高频一致性而设计的,由Prewitt算子实现,它通过约束生成图像与真实图像的梯度变化一致以学习连续的像素间变化模式,可以规避虚假离群点和噪声的存在并增强整体结构细节。为了实现低频一致性约束,我们引入了高斯模糊核来模糊图像的内容并暴露图像风格(色度和照度),通过高斯模糊损失来进一步优化该模型,此外,高斯模糊损失避免了高频损失的过度约束,同时对跨域人脸翻译过程中的颜色偏差和纹理细节进行了有效校准。

2. 方法

给定源域X和目标域Y的人脸图像,我们的任务是同时学习X和Y之间的双向映射,并生成可信且令人满意的图像。如图1所示,所提出的多视图知识集成(MvKE)框架由3个部分组成:结构模块、身份模块和翻译网络。此外,在训练阶段,我们的频率一致性损失通过计算翻译网络的mPrewitt损失和高斯模糊损失,分别约束高频和低频一致性。+

2.1 多视图知识集成

语义分割框架可以用于解析人脸成分,可以从结构角度用于表示一张人脸图像,因此我们的结构模块利用预训练的人脸解析网络去获得人脸成分掩膜作为先验知识,并训练了从人脸成分掩膜到目标域图像的自编码器,通过级联结构知识和翻译网络的特征得到级联起来的特征,结构模块可以向翻译网络提供结构知识。这个过程可以显著降低不同人脸部件之间的混淆噪声并抑制每个人脸部件内的离群像素值。身份模块由预训练的人脸识别网络[6]实现,我们企图集成身份视图的知识到级联起来的特征,我们考虑到人脸识别任务和图像翻译任务差异较大,且需要保持身份一致性,我们设定了相对弱的监督KL散度去度量级联起来的特征的分布与身份特征的分布的偏差,多角度知识集成损失函数可以表示为:

图1  x→y→x^{rec}翻译的示意图

2.2 频率一致性损失

将多视图知识整合到翻译任务中会增加有效信息,但也会引入冗余信息。在此,我们将频率一致性引入到传统的生成约束中,并提出频率一致性损失来约束频率域中的生成图像。它为图像翻译任务提炼出了更有效的信息。所提出的频率一致性损失由多方向的Prewitt损失和高斯模糊损失组成。

现有的图像翻译方法通常采用像素级L1损失函数作为生成约束。这个函数度量生成的图像和目标图像之间的像素级重建误差,而不考虑它们与周围像素的相关性。由于很难逐个像素精确对齐跨域的人脸图像对,而L1损失容易收到离群点的影响,导致这些方法会产生噪声和不合理的纹理。为了解决这个问题,我们提出了一种新的高频损失,即多方向Prewitt(mPrewitt)损失,以监督我们的模型学习连续的像素间变化模式。更具体地说,它指导模型学习与真实图像相同的梯度变化,拒绝错误的离群点和噪声的存在。

mPrewitt损失是为高频一致性设计的,特别是在人脸成分的边缘(如轮廓、皱纹和眼睛)能够起到很好的监督效果。它还能够抑制生成图像中错误的连续像素间的变化,例如皮肤中明显的梯度变化,但是它对颜色差异并不敏感。为了解决这一问题,我们引入了一个高斯模糊损失来约束低频一致性。高斯模糊核可以模糊图像内容(即明显的边缘)并暴露出图像风格(即颜色和光照)。我们的高斯模糊损失通过L1范数约束生成图像的模糊版本及和真实图像的模板版本之间的低频一致性,提升了生成图像的色彩真实度。

3 实验结果

在CUFS、CUFSF等数据集上的大量人像跨域翻译实验表明了我们模型的有效性。

数据和代码链接:https://github.com/qinghew/MvKE-FC

编辑:乔弘宇