首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

谷歌ICML获奖论文 看像素递归神经网络如何帮图片“极致”建模 ?

对自然图片的分布进行建模一直以来都是无监督学习中的里程碑式的难题。这要求图片模型易表达、易处理、可拓展。我们提出一个深度神经网络,它根据顺序沿着两个空间维度来预测图片中的像素。我们的模型离散了原始像素值的可能性,同时编码保证了整个图片的完整性。 建模特性包含二维循环层,以及对深度递归网络连接的有效利用。我们实现了比之前所有的模型都要好的在自然图片上对数可能性的分数。我们的主要结果也对Imagenet进行分类提供了支撑依据。从模型分析出的样本相当清楚、多样且有普遍适用性。 引言 在无监督学习中,通用型图形建模

016

ICCV 2023 | LivelySpeaker: 面向语义感知的共话手势生成

人类对话中通常存在非语言行为,其中最重要的是手势语言。这些非语言手势提供了关键信息、丰富了对话的上下文线索。最近,基于深度学习的方法在从多模态输入生成手势的领域中广泛应用。特别是,这些方法将问题建模为有条件的运动生成,并通过训练一个以说话者身份音频波形、语音文本或这些多模态信号的组合为输入的有条件生成模型来解决。虽然结合了多个模态,但结果往往受到音频信号的节奏高度相关的影响,因为它与说话期间手势的表现密切相关。而其他工作认识到通过共话手势传达的语义的重要性,但它们的框架在很大程度上依赖于预定义的手势类型或关键字,这使得难以有效表达更复杂的意图。

01
领券