用
表示某类的无标签的图像集合(例如鸟类图像),任务是学习一个条件式生成模型,可以同时将背景、物体姿势、形状和纹理等因子编码到一个解纠缠的潜码空间(每个因子单独受一个潜码控制),并且通过结合这些因子可以组合生成逼真的新图像。
作为输入,以三个阶段分层次生成图像:(1)背景阶段,其中仅建模学习如何生成背景,以一个one-hot的潜码b为条件;(2)父阶段,在该阶段中,模型以潜码p和连续的z为条件,生成对象的形状和姿势,并将其融合进背景图像上;(3)子阶段,以one-hot的潜码c为条件,对上一生成图像进行纹理填充。
;而生成器得到
。注:这里的y是z,b,p,c等的placeholder。
表示cross-entropy loss,对于连续的z,则采取L1损失。上述损失用于训练编码器E而不是生成器G。
最后,作者也谈及一些方法的局限,比如: