在这个过程中,以表情包和定制头像的兴起为例,人们开始尝试以融入个人特征和个性想法的卡通画来实现信息的精准传播。且传播主体不再局限于传统动画制作公司,而是以大众为主体的娱乐化传播。
因此,人们对于定制卡通画的需求与日俱增。然而高质量的卡通画需要有经验的画师精心绘制,从线稿设计到色彩搭配,整个流程耗时费力,对于大众而言购买成本较高。
小视科技AI团队近期上线的“AI卡通秀”小程序能够自动实现真实世界照片的卡通风格转变,效果精美自然。为增加行业内交流,促进技术层面的共同提升,该团队现已开源卡通化模型和数据。
图像卡通风格渲染是一项具有挑战性的任务,其目的是将真实照片转换为卡通风格的非真实感图像,同时保持原照片的语义内容和纹理细节。现有的图像卡通风格渲染的方法主要分成两大类:
一是利用传统图像处理技术的方法。该方法只能处理纹理内容简单的图片,因为这些方法本质上是图像滤波和边缘增强的结合,效果受图像内容的影响很大,泛化能力较差。
二是基于深度神经网络的方法。此方法通常难以在转换图像全局风格和保持图像局部的细节语义内容之间取得良好的平衡,易导致风格化程度不足或者丢失图像中的语义细节,产生人工痕迹(Artifacts)。
目前,图像卡通化任务的主要难点:
具体方法
基于上述分析,研究人员提出了一种基于生成对抗网络的卡通化模型,只需少量非成对的训练数据,就能获得漂亮的结果。卡通风格渲染网络是本方法提出的解决方案核心,它主要由特征提取、特征融合和特征重建三部分组成。整体框架由图2所示。
特征提取部分包含堆叠的Hourglass模块、下采样模块和残差模块。Hourglass模块常用于姿态估计,它能够在特征提取的同时保持语义信息位置不变。本方法采用堆叠的Hourglass模块,渐进地将输入图像抽象成易于编码的形式。4个残差模块编码特征并提取统计信息用于后续的特征融合。
特征融合部分使用研究人员提出的Soft-AdaLIN(Soft Adaptive Layer-Instance Normalization),先将输入图像的编码特征统计信息和卡通特征统计信息相融合,再以AdaLIN的方式反规范化解码特征,使卡通画结果更好地保持输入图像的语义内容。
不同于原始的AdaLIN,这里的“Soft”体现在不直接使用卡通特征统计量来反规范化解码特征,而是通过可学习的权重
来加权平均卡通特征和编码特征的统计量,并以此对规范化后的解码特征进行反规范化。
编码特征统计量
提取自特征提取部分中各Resblock的输出特征,卡通特征统计量
通过全连接层提取自CAM(Class Activation Mapping)模块输出的特征图。加权后的统计量为:
则Soft-AdaLIN操作可以表示为:
其中
为特征重建部分中各Resblock提取的解码特征,
为channel-wise均值、标准差,
为layer-wise均值、标准差,
用于调整InstanceNorm和Layer Norm的比重,
为防止除零的常数。
特征重建部分负责从编码特征生成对应的卡通图像。特征重建部分采用与特征提取部分对称的结构,通过解码模块、上采样模块和Hourglass模块生成卡通画结果。
损失函数
除了常规的Cycle Loss和GAN Loss,研究人员还引入了ID Loss,使用预训练的人脸识别模型来提取输入真人照和生成卡通画的id特征,并用余弦距离来约束,使卡通画的id信息与输入照片尽可能相似。
其中,
为输入的真实图像,
为生成的卡通图像,
为预训练的人脸特征提取模型用于提取512维的id特征。
实验
实验所用的卡通图像数据共204张,人脸照片数据共820张,均收集自互联网。由于实验数据有限,为了降低训练难度,我们将数据处理成固定的模式。
首先检测图像中的人脸及关键点,根据关键点旋转校正图像,并按统一标准裁剪,再将裁剪后的头像输入人像分割模型去除背景,流程如图3所示。
实验效果如下:
更多训练细节参见github项目:
https://github.com/minivision-ai/photo2cartoon
“AI卡通秀”小程序
为了更好地展示实验效果,小视科技推出基于此技术的“AI卡通秀”微信小程序。该小程序能实时将用户自拍转换为卡通风格,并提供滤镜和动图合成功能。
团队采用少量定制的卡通图像素材进行训练,保留了卡通画风格的同时,在五官细节的勾勒上效果远好于其他同类算法,这也意味着该算法可以更好地还原人像本身的可辨识信息。
得益于深度神经网络渲染算法的泛化能力,算法在不同人群、光线、背景、表情、姿态等多种变量下都具有出色的鲁棒性,最终模型能够较为稳定地生成精美的卡通肖像。
开源模型与更多细节:
https://github.com/minivision-ai/photo2cartoon
END