首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

每日论文速递 | 李飞飞领衔建立具身AI最新数据集BEHAVIOR-1K

摘要:我们推出的 BEHAVIOR-1K 是以人为中心的机器人技术综合模拟基准。BEHAVIOR-1K 包括两个部分,由 "您希望机器人为您做什么?"的广泛调查结果指导和推动。第一部分是对 1000 种日常活动的定义,以 50 个场景(房屋、花园、餐厅、办公室等)为基础,其中有 9000 多个标注了丰富物理和语义属性的物体。其次是 OMNIGIBSON,这是一个新颖的模拟环境,通过对刚体、可变形体和液体进行逼真的物理模拟和渲染来支持这些活动。我们的实验表明,BEHAVIOR-1K 中的活动是长视距的,并且依赖于复杂的操作技能,这两点对于最先进的机器人学习解决方案来说仍然是一个挑战。为了校准 BEHAVIOR-1K 的模拟与现实之间的差距,我们进行了一项初步研究,将在模拟公寓中使用移动机械手学习到的解决方案转移到现实世界中。我们希望,BEHAVIOR-1K 以人为本的特性、多样性和现实性,能使其在具身人工智能和机器人学习研究中发挥重要作用。

01
您找到你想要的搜索结果了吗?
是的
没有找到

智能过程自动化:IPA实施的4个阶段

今天的知识工作者就像昨天的上班族。他们花时间在电子邮件,电话,各种桌面和在线应用程序以及与客户,供应商,员工,合作伙伴和内部利益相关者打交道的网站上。大部分时间都花在处理各种系统上,以便将信息从一处转移到另一处,或者将数据从一个系统输入/处理到另一个系统。如果你曾经处理过一个官僚机构,比如你的汽车部门,那么你正在经历处理知识型服务经济的乐趣。但它并不需要这样。 组织似乎认为办公室和知识型员工生产力有限的原因大部分是因为信息存在于多个不同的系统中,采用不同的格式,而且各种流程决定了信息如何从一个地方流向另一个

06

万字综述 | 一文读懂知识蒸馏

近年来,深度神经网络在工业界和学术界都取得了成功,尤其是在计算机视觉任务方面。深度学习的巨大成功主要归因于其可扩展性以编码大规模数据并操纵数十亿个模型参数。但是,将这些繁琐的深度模型部署在资源有限的设备(例如,移动电话和嵌入式设备)上是一个挑战,这不仅是因为计算复杂性高,而且还有庞大的存储需求。为此,已经开发了多种模型压缩和加速技术。作为模型压缩和加速的代表类型,知识蒸馏有效地从大型教师模型中学习小型学生模型。它已迅速受到业界的关注。本文从知识类别,训练框架,师生架构,蒸馏算法,性能比较和应用的角度对知识蒸馏进行了全面的调查。此外,简要概述了知识蒸馏中的挑战,并讨论和转发了对未来研究的评论。

07

互联网金融沉沦落寞,金融科技繁花盛开

文\孟永辉 德国心理学家库尔特-勒温认为,个体态度的改变取决于他所参与到群体活动的方式。一个人参与活动的方式既决定着他的态度,也改变着他的态度。金融对于人们生活的影响愈加深刻,互联网时代的来临更是将金融更加紧密地与人们的生活紧密联系在一起。 互联网时代的来临将人们参与金融活动的方式从传统的以线下为主转移到了当下的以线上为主,这种方式的改变直接决定着人们对于金融行业的态度同样将会发生根本性的变革。当下,人们参与金融活动的方式已经从以线下为主的方式转移到了以线上为主的方式。未来,随着更多新科技加入到金融领域之中

06

EXEMPLAR GUIDED UNSUPERVISED IMAGE-TOIMAGETRANSLATION WITH SEMANTIC CONSISTENCY

由于深度学习的进步,图像到图像的翻译最近受到了极大的关注。大多数工作都集中在以无监督的方式学习一对一映射或以有监督的方式进行多对多映射。然而,更实用的设置是以无监督的方式进行多对多映射,由于缺乏监督以及复杂的域内和跨域变化,这更难实现。为了缓解这些问题,我们提出了示例引导和语义一致的图像到图像翻译(EGSC-IT)网络,该网络对目标域中的示例图像的翻译过程进行调节。我们假设图像由跨域共享的内容组件和每个域特定的风格组件组成。在目标域示例的指导下,我们将自适应实例规范化应用于共享内容组件,这使我们能够将目标域的样式信息传输到源域。为了避免翻译过程中由于大的内部和跨领域变化而自然出现的语义不一致,我们引入了特征掩码的概念,该概念在不需要使用任何语义标签的情况下提供粗略的语义指导。在各种数据集上的实验结果表明,EGSC-IT不仅将源图像转换为目标域中的不同实例,而且在转换过程中保持了语义的一致性。

01

异步编程:协作性多任务处理

如何确保同时处理多个请求,我们可以使用线程或进程进行多任务处理实现,但还有一个选择 - 协作性多任务处理。 这个选项是最困难的。在这里我们说操作系统当然很酷,它有调度程序/计划程序,它可以处理进程,线程,组织它们之间的切换,处理锁等,但它仍然不知道应用程序是如何工作的,而这些工作原理应该是我们作为开发人员所知道的。 我们知道在CPU上会有短暂的时刻执行某些计算操作,但大多数时候我们都期望网络I / O能更清楚何时在处理多个请求之间切换。 从操作系统的角度来看,协作式多任务只是一个执行线程,在其中,应用程序在处理多个请求/命令之间切换。通常情况是:只要一些数据到达,就会读取它们,解析请求,将数据发送到数据库,这是一个阻塞操作;而非堵塞操作时在等待来自数据库的响应时,可以开始处理另一个请求,它被称为“合作或协作”,因为所有任务/命令必须通过合作以使整个调度方案起作用。它们彼此交错,但是有一个控制线程,称为协作调度程序,其角色只是启动进程并让这些线程自动将控制权返回给它。 这比线程的多任务处理更简单,因为程序员总是知道当一个任务执行时,另一个任务不会执行,虽然在单处理器系统中,线程应用程序也将以交错模式执行这种模型,但使用线程的程序员仍应考虑此方法的缺陷,以免应用程序在移动到多处理器系统时工作不正常。但是,即使在多处理器系统上,单线程异步系统也总是以交错方式执行。 编写这样的程序的困难在于,这种切换,维护上下文的过程,将每个任务组织为一系列间歇性执行的较小步骤,落在开发人员身上。另一方面,我们获得了效率,因为没有不必要的切换,例如,在线程和进程之间切换时切换处理器上下文没有问题。 有两种方法可以实现协作式多任务处理 :回调和绿色线程。 回调 由于所有阻塞操作都会导致某个动作将在未来的某个时间发生,并且我们的执行线程应该在准备就绪时返回结果。因此,为了获得结果,我们必须注册回调 - 当请求/操作成功时,它将执行一个回调,或者如果它不成功,它将执行另一个回调。回调是一个明确的选项 - 开发人员应该以这样的方式编写程序,使他不知道何时将调用回调函数。 这是最常用的选项,因为它是显式的,并且得到了大多数现代语言的支持。 利弊:

03

计算机视觉最新进展概览2021年10月24日到2021年10月30日

神经体系结构搜索(Neural Architecture Search, NAS)通过自动发现最优的体系结构,在有效减少网络设计的人工工作量方面显示了巨大的潜力。 值得注意的是,尽管目标检测在计算机视觉中具有重要的意义,但到目前为止,NAS算法对目标检测的接触还比较少。 据我们所知,目前大多数针对目标检测任务的NAS研究都未能在结果模型的性能和效率之间取得令人满意的平衡,更不用说这些算法所消耗的过多的计算资源了。 在这里,我们提出了一种有效的方法来获得更好的目标检测器,通过搜索特征金字塔网络(FPN)和简单的无锚目标检测器的预测头,即FCOS[36],使用定制的强化学习范式。 通过精心设计的搜索空间、搜索算法和评估网络质量的策略,我们能够在4天内使用8个V100 gpu找到高性能的检测架构。 在COCO数据集上,发现的体系结构在AP上超过了最先进的目标检测模型(如Faster R-CNN、Retina-Net和FCOS) 1.0%到5.4%,具有相当的计算复杂性和内存占用,证明了提出的NAS方法在目标检测中的有效性。

03

Source-Free Domain Adaptation for Semantic Segmentation

无监督域自适应(UDA)可以解决基于卷积神经网络(CNN)的语义分割方法严重依赖于像素级注释数据的挑战,这是劳动密集型的。然而,这方面现有的UDA方法不可避免地需要完全访问源数据集,以减少模型自适应过程中源域和目标域之间的差距,这在源数据集是私有的真实场景中是不切实际的,因此无法与训练有素的源模型一起发布。为了解决这个问题,我们提出了一种用于语义分割的无源领域自适应框架,即SFDA,其中只有经过训练的源模型和未标记的目标领域数据集可用于自适应。SFDA不仅能够在模型自适应过程中通过知识转移从源模型中恢复和保存源领域知识,而且能够从目标领域中提取有价值的信息用于自监督学习。为语义分割量身定制的像素级和补丁级优化目标在框架中无缝集成。在众多基准数据集上的广泛实验结果突出了我们的框架相对于依赖源数据的现有UDA方法的有效性。

03
领券