首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【SSL-RL】自监督强化学习:解耦表示学习 (DRL)算法

DRL的主要贡献在于提出了一种将环境的动态因素(如物体运动、背景变化)与任务相关特征分离的机制。这种解耦表示学习策略能够提高强化学习算法的泛化能力和训练效率。 2....因此,DRL通过将表示学习解耦为任务相关和无关特征的学习,使得模型可以专注于与任务密切相关的状态信息,从而在训练和推理阶段更加高效。...3.2 表示解耦与重构 通过对任务相关和无关特征的分离,DRL可以分别重建观测数据,以确保解耦表示的质量。解码器将 和 结合,用于重构原始观测 。...此代码展示了如何通过编码器和解码器将高维观测解耦为任务相关和无关特征。...通过将观测解耦为任务相关和无关特征,DRL使得模型能够更好地理解环境,并在复杂的强化学习任务中取得良好的表现。

7110
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    AI从System 1迈向System 2重要一步,中科院自动化所探索物体动静态物理属性,入选AAAI和ICLR

    对于深度神经网络而言,模型缺乏像人类一样以自监督的方式去将场景里的物体拆分表示以更好地理解场景的能力:无法将红色、绿色、黄色等属性正确地分配给所属物体,缺少属性与物体之间的对应关系,而这种理解场景的方式对于抽象常识的建立以及因果关系的发现十分重要...id=1iWoD04yVZU 研究背景 从生成模型的角度来说,已有的一些方法可以通过 VAE 框架对简单场景中的每个物体进行解耦表示,包括物体的形状、大小、位置等静态物理属性,这种对场景中不同物体的分离并解耦的表示方式对于下游任务有着很大的促进作用...对于视频输入: 基于 VAE 架构的编码器分解每帧图像的场景为多个物体,并将物体的静态物理属性解耦表示,以解码器重建为原图作为监督; 通过 Transformer 的架构自适应匹配不同帧的物体静态物理表示...图 5:分割与重建性能对比。 可视化表明,ODDN 自适应学习推理得出的物体动态物理属性编码了物体在不同方向的运动速度,验证了模型发现物理属性的解耦性。...图 6:动态物理属性解耦可视化:基于给定两帧预测第三帧,调节物体属性值会改变其对应方向的速度值。

    33820

    CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征

    具体来说,作者将人体部件的几何形变解耦为与骨骼相关的变化(比如骨骼长度和方向的变化)和与骨骼无关的变化(比如形状尺寸和风格的变化),它们分别由第k个部位的骨骼隐编码和形状嵌入表示。...2.3网络架构 网络架构以经典的编码器-解码器结构为基础,融合其解耦思路中的“部件感知”、“骨骼分离”特点,把编码器拆分为骨骼支路和形状支路,并且把一个全连接层拆成多个局部全连接层,这样设计不仅有利于人体特征的提取与聚合...图3:网络架构示意图 具体来说,输入一个网格x,编码器的骨骼支路和形状支路分别编码其每个部件的骨骼信息与形状特征,得到骨骼隐编码 和形状隐编码 其中 和 表示第k个部位的局部隐编码。...接着作者采用下面的阈值处理和归一化函数 来获得大小同为的权重矩阵 : 加权后的欧式距离矩阵定义为: 其中 表示矩阵的逐元素相乘,OAW策略尽可能地将骨长信息与欧式距离矩阵分离,从而实现更彻底的解耦和更高精度的编辑...编辑分支:在解耦分支的约束下,网络学习到的隐空间已经实现了人体部件骨骼与形状的 无监督解耦,因此用户可以通过修改输入的关节点位置控制人体部件骨骼的方向和长度,但是对于部件的形状仍然无法实现可控的编辑。

    35730

    AI论文速读 | 2024时空解耦掩码预训练的时空预测

    ,掩码自编码器,时空预测,异质性 TL; DR: 本研究提出了一种自监督预训练框架STD-MAE,利用时空解耦掩码自编码器(S-MAE和T-MAE)分别在空间和时间维度上重建时空序列,以学习丰富的上下文表示...为了解决这些问题,本文提出了一种新颖的自监督预训练框架时空解耦掩码预训练(STD-MAE),它采用两个解耦屏蔽自动编码器沿空间和时间维度重建时空序列。...时空解耦掩码自编码器(Spatial-Temporal-Decoupled Masked AutoEncoder):构建了一个由时间自编码器(T-MAE)和空间自编码器(S-MAE)组成的框架,每个自编码器都具有相似的架构...STD-MAE框架:提出了一种新的预训练框架,通过两个解耦的掩码自编码器(S-MAE和T-MAE)分别在空间和时间维度上重建时空序列,以学习丰富的上下文表示。...方法细节: 时空解耦掩码:分别在空间和时间维度上执行掩码操作,以捕捉长距离的时空异质性。 自编码器架构:使用自注意力机制分别在空间和时间维度上进行信息编码。

    20410

    开发 | 谷歌对无监督解耦方法进行了大规模评估,还开源了用来实验的开发库!

    如果能够成功完成特征的解耦表示,现实世界中机器学习系统(如自动驾驶汽车或者机器人)能够将物体的属性与其周围环境分离,从而使得模型能够泛化到其没有见过的场景中。...举一个简单的例子,一辆汽车在不同的天气,光线条件或者地理位置等环境中,它的特征应该是不变的,如果一个模型能够将汽车的特征与其背景环境的特征解耦,那么有理由认为,将这个汽车放在一个模型在训练时完全没见到过的环境中时...为了更好的理解如何将图像的真实属性以解耦的方式编码为特征,不妨先来看 Shapes3D 数据集中图像的真值因素。...大规模实验的主要结果 尽管研究界已经提出了各种基于变分自动编码器的无监督方法来学习解耦的表示,同时也设计了很多的度量标准来量化模型解耦的效果的好坏,但并没有大规模的实验研究以统一的标准评估这些方法。...disentanglement_lib 允许其他研究人员将他们的新模型与的预训练模型进行对比,并在各种模型上测试新的解耦度量标准和可视化方法,有望能够推动该领域进一步向前发展。

    67030

    组监督学习: 通过可控的解耦表征学习模拟人脑想象力! ICLR 2021

    图2 可控的解耦表征学习模拟知识因式分解 提到解耦表征学习(disentangled representation learning),大家首先想到的应该是变分自编码器(VAE),VAEs 可以用无监督学习...图5 Self reconstruction 步骤 接下来,为了实现可控的解耦,我们先在latent vector中预定义每个属性的编码位置:红色编码(储存)identity 信息,黄色编码姿态信息,绿色编码背景信息...然后通过接下来 Step 2 和 Step 3 的基于multi-graph的属性交换与约束实现预定义的可控解耦。...图13 可控的解耦表征学习效果分析 第二个实验是在Fonts 数据集(能提供所有可能的属性组合)中计算生成图像与 ground truth之间的平均MSE 和 PSNR从而定量地分析生成图片质量。...定量和定性的分析了在属性可控生成,解耦表征学习与数据增强方向的应用。

    1K40

    自监督行为识别-时空线索解耦

    具体来说,将解耦模块与特征提取器相结合,分别从空间和时间域获得明确的线索。对于SCD-Net的训练,构建了一个全局锚点,鼓励锚点与提取的线索相互作用。...SCD-NET整体架构如下所示:骨架数据->数据增强(data augmentation)后,分别送入编码器层(encoder)以及动量编码器层(Momentum encoder).每个编码器都使用了双向解耦编码器...动量编码器得到的输出作为键向量,正常编码器得到的输出作为查询向量,最后将键向量、查询向量进行对比学习。 2.1 双向解耦编码器   一般来说,从骨架序列中提取的特征被描述为描述动作的复杂时空关联。...在SCD-Net中,本文提倡一种双路解耦编码器,从复杂的序列信息中分别提取出时间、空间信息以获得更好的判别性表示。   ...双向解耦编码器构造如下图:分为建模(projection)和细化(refinement)阶段,空间部分对CT维度进行合并,保留V(代表骨骼关节)维度,而后进行嵌入操作得到骨架图->序列化–>transformer

    8910

    java与ruby的直观比较

    以前花过一段时间学习ruby,还顺便写了个股票爬虫,搭了数据展示网站,这次回顾一下以前的知识点,将ruby与java作个简单而直观的比较,这样有助于更深入地理解java。...,实际是可靠性与灵活性的选择,静态类型在编译时确保了类型安全,增强了软件的可靠性,但同时失去了灵活性,一个变量只能赋值某种类型,不便于扩展,相反动态类型则使程序更加地灵活和简洁,但在类型安全保障方面却不及前者有力...AOP和依赖注入在ruby中是小菜一碟,但在java程序员而言,却要学习新的编程模型,处理XML,引进复杂的语法。...(Ruby 2.0)能够在之前、之后和包装与Ruby方法钩连。...*args) result = original_new(*args) print “object creadted " return result end end Ioc: IoC是一种可以帮助我们解耦各业务对象间依赖关系的对象绑定方式

    1.5K50

    【论文复现】自监督行为识别-时空线索解耦

    具体来说,将解耦模块与特征提取器相结合,分别从空间和时间域获得明确的线索。对于SCD-Net的训练,构建了一个全局锚点,鼓励锚点与提取的线索相互作用。...SCD-NET整体架构如下所示:骨架数据->数据增强(data augmentation)后,分别送入编码器层(encoder)以及动量编码器层(Momentum encoder).每个编码器都使用了双向解耦编码器...动量编码器得到的输出作为键向量,正常编码器得到的输出作为查询向量,最后将键向量、查询向量进行对比学习。 2.1 双向解耦编码器 一般来说,从骨架序列中提取的特征被描述为描述动作的复杂时空关联。...在SCD-Net中,本文提倡一种双路解耦编码器,从复杂的序列信息中分别提取出时间、空间信息以获得更好的判别性表示。   ...双向解耦编码器构造如下图:分为建模(projection)和细化(refinement)阶段,空间部分对CT维度进行合并,保留V(代表骨骼关节)维度,而后进行嵌入操作得到骨架图->序列化–>transformer

    14310

    人脸合成效果媲美StyleGAN,而它是个自编码器

    ,它通过同时学习编码器-生成器图将「生成性」和「表征性」结合起来。...关于自编码器有两个疑问尚未得到解决: 自编码器是否具备和 GAN 同等的生成能力? 自编码器能否学习解耦表征(disentangled representation)?...研究者表示 ALAE 具备与 GAN 相当的生成能力,且能够学习解耦表征。...研究者对这两个架构的解耦能力进行了验证,发现 StyleALAE 不仅能够生成与 StyleGAN 生成质量相当的 1024x1024 人脸图像,在同样分辨率条件下,它还可以基于真实图像生成人脸重建和操纵结果...如下图 1 所示,研究者将生成器 G 和判别器 D 分别分解成两个网络:F、G 和 E、D。 ? 图 1:ALAE 架构。 此外,研究者还展示了 ALAE 与其他自编码器的关联,详见下表: ?

    1.1K10

    java与ruby的直观比较

    以前花过一段时间学习ruby,还顺便写了个股票爬虫,搭了数据展示网站,这次回顾一下以前的知识点,将ruby与java作个简单而直观的比较,这样有助于更深入地理解java。...,实际是可靠性与灵活性的选择,静态类型在编译时确保了类型安全,增强了软件的可靠性,但同时失去了灵活性,一个变量只能赋值某种类型,不便于扩展,相反动态类型则使程序更加地灵活和简洁,但在类型安全保障方面却不及前者有力...AOP和依赖注入在ruby中是小菜一碟,但在java程序员而言,却要学习新的编程模型,处理XML,引进复杂的语法。...(Ruby 2.0)能够在之前、之后和包装与Ruby方法钩连。...original_new(*args) print “object creadted " return result end end Ioc: IoC是一种可以帮助我们解耦各业务对象间依赖关系的对象绑定方式

    1.1K70

    IROS 2021 | 基于无监督学习环境模型的机器人运动控制

    物体解耦模块(Object Extractor):图像编码器(Image Encoder)将输入图像 分解为一组特征图 ,来表示不同物体的空间位置信息。...运动编码器(Motion Encoder)输入连续几帧图像 ,输出一组空间变换矩阵 ,来表示每个物体从时刻 到 发生的位置变换。 是2*3矩阵,由2*2旋转矩阵和 方向的平移组成。...Object Extractor 和 Interaction Learner 在视频数据集上端到端地训练,优化目标是: 直观地,最小化前一项能够激励图像编码器解耦不同的物体、运动编码器分解不同物体的位移...环境模型做预测的流程如下:输入历史观测 和智能体动作 ,通过动作映射将 转换为矩阵 ,通过图像编码器提取 ,用空间变换器得到 ,最后通过交互学习模块输出下一时刻的观测 。 图4....图6显示,只有用我们的方法作为环境模型时,能够有效地完成任务,使环境中物体位置与目标位置的距离显著下降。

    46710

    【他山之石】SAM再进化|伦敦大学开源 Surgical-DeSAM,无需人工即可完成手术自动化

    然后,作者通过用DETR编码器替换图像编码器并微调提示编码器和 Mask 解码器来应用解耦SAM(DeSAM),以获得手术器械的实例分割。...图1:Surgical-DeSAM:Swin-DETR检测器和用于器械分割的解耦SAM。...的图像编码器替换为DETR的编码器来解耦SAM(DeSAM); 在EndoVis17和EndoVis18两个公开可用的手术器械分割数据集上进行验证; 与SOTA模型相比,展示了鲁棒性。...,以设计一种用于手术器械检测的高效模型;(ii)解耦SAM:将SAM图像编码器替换为DETR编码器,并进行端到端的检测训练,以提示SAM的 Mask 解码器进行手术器械的分割。...为了自动化边界框提示,作者通过移除图像编码器并将DETR编码器的特征和预测的边界框输入到SAM Mask 解码器和提示编码器来解耦SAM,以获得最终的分割。

    36100

    机器人软件中间层 yarp-Yet Another Robot Platforms

    我们处理控制从更一般的角度来看问题,而不是限制用户要使用基于任务的方法。...在本文中,我们提出了一个软件抽象层,该层负责将控制软件解耦: 解耦用于获取状态反馈的实际接口; 解耦实际发送命令指令的接口; 解耦机器人动力学和运动学计算库; 2 系统动力学 对于一个自由漂浮机器人系统...特别是它显示了可能的马达可控制的模式,例如 位置控制,速度控制和转矩控制。 当然也提供了底层控制器的参数设定。 (2)传感器 传感器模块是与执行器相对应的,该模块代表着机器人系统所有的状态信息。...包括了编码器、力和力矩传感器以及加速度计等。 (3)状态信息 状态元素代表所有可能的信息可以在机器人上进行测量或估算。 这意味着该状态包含传感器提供的信息元件。...例如, 如果机器人仅提供关节位置测量值,例如来自联合编码器,一阶和二阶导数滤波器可以提供速度和加速度测量值。

    1.5K3631

    深度解读协作机械臂硬件系统

    image.png 3.2 传感器数据采集与处理模块 为了实现关节的位置和力控制,在关节端集成了光电编码器和力矩传感器。同时,考虑到关节谐波的柔性,在电机端还集成了磁编码器。...image.png (1) 磁编码器 磁编码器我们选用的是一款16位数字输出的相对位置传感器,其输出信号为A,B和Z等的六路差分信号,输出接口为RS422,因此,为了能够实现其跟控制器的数据传输,需要设计外接...(2) 光电编码器 为了检测关节端的位置信息,本系统的关节中集成了一款15位分辨率的绝对式光电编码器。...场向量控制的基本概念就是通过坐标变换,在矢量坐标系下实现电压、电流和磁势等变量的解耦控制。通过坐标变换实现解耦或近似解耦,实际就是进行数学上的相似变换,使电机模型中的电感矩阵(或阻抗矩阵)对角线化。...SVPWM可以将N阶系统解耦,从而使得系统分解为N个独立的系统。在SVPWM的解耦作用下,永磁无刷直流电机能够对磁势和电机扭矩分别控制。

    6K359280

    WWW22「快手」序列推荐:解耦长短期兴趣

    导读 本文结合自监督方法提出CLSR模型来挖掘用户的长短期兴趣,并进行进一步的解耦。 1. 首先提出了两个独立的编码器来独立捕获不同时间尺度的用户兴趣。 2....短期兴趣:随着用户不断与推荐商品进行交互,短期兴趣会不断变化。例如,用户可能会在点击某个商品后建立新的兴趣。同时,用户也可能逐渐失去某些兴趣。...交互预测:利用长短期兴趣和交互数据进行预测。 3.2 自监督实现 在本节中设计了两个独立的编码器来实现 1 和 2,它们学习长短期兴趣的表征。然后以通过自我监督来实现解耦。...,无法确保长短期兴趣的解耦,因此这一节采用自监督的方法来进行解耦。...l_t 和是超参数。 使用代理作为标签,可以利用它们来监督长短期兴趣的解耦。在编码器输出和代理之间进行对比学习,这要求学习到的长短期兴趣表征与其对应的代理更相似,而不是相反的代理。

    84220

    超110篇!CVPR 2021最全GAN论文汇总梳理!

    具体来说,提出交叉重构式的表情解耦技术,将语音分解为两个解耦空间,即与时长无关的情感空间和与时长相关的内容空间。解开的特征可推断出动态2D表情人脸。...现有方法将输入图像和用户交互线索用于CNN 输入,但相应的特征表示不足以传达用户意图细节,从而导致生成内容不佳。 本文提出DeFLOCNet,依赖于深度编码器-解码器保留输入信息在深度特征表示。...具体来说,通过注意力机制将混合的人脸特征分解为两个不相关的部分(身份和年龄相关的特征),然后使用多任务训练和连续域自适应将这两个部分的相关性进行解耦。...通过将查询街道图像与数据库中最近的卫星图像进行匹配来同时确定查询街道图像的地理位置。...该方法源自线性回归和稀疏表示学习概念,使解耦的潜在表示也易于解释。 首先将 StyleGAN 与3D可变形人脸重建方法相结合,以将单视图生成分解为多个语义。然后提取潜在表示以捕获可解释的面部语义。

    3K32

    MobileSAM来啦 | 比SAM小60倍,比FastSAM快4倍,速度和效果双赢

    这种优化难度主要来自于图像编码器和Mask解码器的耦合优化。 基于这种理解,作者提出将图像编码器和Mask解码器的优化解耦。具体来说,作者首先将知识从默认图像编码器ViT-H蒸馏到一个微小的ViT。...通过将寻求新SAM管道的问题转化为解耦蒸馏,作者的方法具有简单有效的优点,同时可以以低成本(在不到一天的单个GPU上)进行复制。...2、从半耦合到解耦的蒸馏 当执行从原始SAM到较小图像编码器的KD时,困难主要在于图像编码器和组合解码器的耦合优化。直观地说,图像编码器的优化取决于图像解码器的质量,反之亦然。...作者称这种蒸馏为半耦合,因为图像编码器的优化仍然没有与Mask解码器完全解耦。...3、论Mask解码器微调的必要性 与半耦合蒸馏不同,上述解耦蒸馏产生了一个轻量化的图像编码器,该编码器可能与原始的冻结Mask解码器不太一致。

    1.3K30

    WSDM23 推荐系统论文梳理

    通过将潜在的全局兴趣与用户上下文相结合,IDNP重建长期用户兴趣函数并预测即将到来的交互。此外,即使交互序列有限且不连续,IDNP 也可以对此类兴趣函数进行建模。 2....动机:兴趣点(POI)推荐在各种位置感知服务中起着至关重要的作用。据观察,POI 推荐受顺序和地理影响。然而,由于没有标签,现有方法往往将这两种影响纠缠在一起,这可能导致推荐性能不佳和可解释性差。...POI recommendation),它联合利用两个单独图上的顺序和地理关系,并通过自监督解耦这两种影响。...与现有方法相比,模型的主要创新是使用对比学习提取顺序和地理影响的解耦表示。具体来说,我们根据用户的行为顺序构建地理图和时序图,定制他们的传播方案以变得具有序列/地理意识,以更好地捕捉相应的影响。...从行为序列中提取偏好代理作为两种影响的伪标签,通过对比损失监督解耦。 3.

    1.6K20
    领券