首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Nat. Mach. Intel. | 可解释性图像识别的概念白化方法

今天给大家介绍的是ZhiChen等人在Nature Machine Intelligence上发表的文章“Concept whitening for interpretableimage recognition”。机器学习中的可解释性无疑是重要的事情,但是神经网络的计算通常是很难理解的。在这里,论文不是试图事后分析一个神经网络,而是引入一种称为概念白化(CW,concept whitening)的机制来改变网络的一个给定层,使我们能够更好地理解该层的计算。当CW模块被添加到卷积神经网络时,潜在空间被白化(即,去相关和归一化),并且潜在空间的轴会与已知的感兴趣的概念对齐。通过实验,论文发现CW可以使我们更清楚地了解网络是如何通过分层学习概念的。CW是BatchNormalization(BN)层的一种替代方法,因为它对潜在空间进行了标准化,也进行了去相关(白化)。CW可以用于网络的任何一层而不影响预测性能。

03
您找到你想要的搜索结果了吗?
是的
没有找到

【自监督学习机器人】谷歌大脑首次实现机器人端到端模仿人类动作 | 视频

【新智元导读】 机器人仅需观察人类行为就能模仿出一模一样的动作,这一机器人领域发展的长期目标最近被谷歌大脑“解锁”。在新发布的一项研究中,谷歌大脑团队介绍了他们使用自监督式学习的方法,通过多视角的时间对比网络(TCN)来实现机器人端到端模仿人类动作。另外,他们所提出的TCN模型,在图像分类上的错误率也大大地低于ImageNet-Inception。 谷歌大脑近日公布了一项新的研究成果,让机器人(机械臂)仅仅通过观察就能模仿人类动作。通过模仿人类行为来学习如何执行新的任务一直都是机器人技术的长期目标,如果凭

05

CVPR 2020 | 弱监督怎样做图像分类?上交大提出自组织记忆网络

在这篇论文中,研究者利用网络数据研究图像分类任务 (image classification)。他们发现网络图片 (web image) 通常包含两种噪声,即标签噪声 (label noise) 和背景噪声 (background noise)。前者是因为当使用类别名 (category name) 作为关键字来爬取网络图像时,在搜索结果中可能会出现不属于该类别的图片。后者则是因为网络图片的内容与来源非常多样,导致抓取的图片往往包含比标准的图像分类数据集更多的无关背景信息。在下图中的两张图片均用关键字「狗」抓取。左边图片的内容是狗粮而不是狗,属于标签噪声;右边的图像中,草原占据了整个图像的大部分,同时小孩子也占据了比狗更为显著的位置,属于背景噪声。

02

CVPR 2020 | 弱监督怎样做图像分类?上交大提出自组织记忆网络

在这篇论文中,研究者利用网络数据研究图像分类任务 (image classification)。他们发现网络图片 (web image) 通常包含两种噪声,即标签噪声 (label noise) 和背景噪声 (background noise)。前者是因为当使用类别名 (category name) 作为关键字来爬取网络图像时,在搜索结果中可能会出现不属于该类别的图片。后者则是因为网络图片的内容与来源非常多样,导致抓取的图片往往包含比标准的图像分类数据集更多的无关背景信息。在下图中的两张图片均用关键字「狗」抓取。左边图片的内容是狗粮而不是狗,属于标签噪声;右边的图像中,草原占据了整个图像的大部分,同时小孩子也占据了比狗更为显著的位置,属于背景噪声。

05

CVPR2023 | 通过示例绘制:基于示例的图像编辑与扩散模型

由于社交媒体平台的进步,照片的创意编辑成为了普遍需求。基于人工智能的技术极大地降低了炫酷图像编辑的门槛,不再需要专业软件和耗时的手动操作。深度神经网络通过学习丰富的配对数据,可以产生令人印象深刻的结果,如图像修复、构图、上色和美化。然而,语义图像编辑仍然具有挑战性,它旨在操纵图像内容的高级语义并保持图像的真实性。目前,大规模语言图像模型能够以文本提示为指导实现图像操作,但是详细的文本描述常常不够准确,很难描述细粒度的物体外观。因此,需要开发一种更直观的方法来方便新手和非母语使用者进行精细的图像编辑。

03

CSS | 视差滚动 | 笔记

image-20230720145639107css3中的坐标系,rotateX就是绕着x轴旋转,rotateY就是绕着Y轴旋转,rotateZ就是绕着z轴旋转(也就是xy平面的旋转)。 perspective属性用来设置视点,在css3的模型中,视点是在Z轴所在方向上的。 translateX,translateY表现出在屏幕中的上下左右移动,transformZ 的直观表现形式就是大小变化, 实质是 XY平面相对于视点的远近变化(说远近就一定会说到离什么参照物远或近,在这里参照物就是perspective属性)。 比如设置了 perspective 为 200px; 那么 transformZ 的值越接近 200,就是离的越近,看上去也就越大,超过200就看不到了, 因为相当于跑到后脑勺去了,你不可能看到自己的后脑勺。 (200-transformZ的值)就是视点和xy平面的距离(初始是屏幕的位置,此时transformZ的值为0)。

02

3D Imaging Using Extreme Dispersion in Optical Metasurfaces

由于超表面对入射光的相位、偏振和振幅的极端控制,因此具有革新成像技术的潜力。它们依靠增强的光的局部相互作用来实现所需的相位轮廓。由于光的局部相互作用增强,超表面是高度色散的。这种强分散被认为是实现常规超表面成像的主要限制。在这里,我们认为这种强色散为计算成像的设计自由度增加了一个程度,潜在地打开了新的应用。特别是,我们利用超表面的这种强分散特性,提出了一种紧凑、单镜头、被动的3D成像相机。我们的设备由一个金属工程,聚焦不同的波长在不同的深度和两个深度网络,恢复深度和RGB纹理信息从彩色,散焦图像获得的系统。与其他基于元表面的3D传感器相比,我们的设计可以在更大的视场(FOV)全可见范围内运行,并可能生成复杂3D场景的密集深度图。我们对直径为1毫米的金属的模拟结果表明,它能够捕获0.12到0.6米范围内的3D深度和纹理信息。

02
领券