首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准

自动驾驶感知需要对3D几何和语义进行建模。现有的方法通常侧重于估计3D边界框,忽略了更精细的几何细节,难以处理一般的、词汇表外的目标。为了克服这些限制,本文引入了一种新的3D占用预测任务,旨在从多视图图像中估计目标的详细占用和语义。为了促进这项任务,作者开发了一个标签生成pipeline,为给定场景生成密集的、可感知的标签。该pipeline包括点云聚合、点标签和遮挡处理。作者基于Waymo开放数据集和nuScenes数据集构造了两个基准,从而产生了Occ3D Waymo和Occ3D nuScene基准。最后,作者提出了一个模型,称为“粗略到精细占用”(CTF-Occ)网络。这证明了在3D占用预测任务中的优越性能。这种方法以粗略到精细的方式解决了对更精细的几何理解的需求。

04

Towards Instance-level Image-to-Image Translation

非配对图像到图像的翻译是一个新兴的、具有挑战性的视觉问题,旨在学习不同领域中未对准图像对之间的映射。该领域的最新进展,如MUNIT和DRIT,主要集中在首先从给定图像中解开内容和风格/属性,然后直接采用全局风格来指导模型合成新的领域图像。然而,如果目标域图像内容丰富且包含多个不一致的对象,则这种方法会严重导致矛盾。在本文中,我们提出了一种简单而有效的实例感知图像到图像的翻译方法(INIT),该方法在空间上对目标图像采用细粒度的局部(实例)和全局风格。拟议的INIT具有三个重要优势: (1) 实例级的客观损失可以帮助学习更准确的重建,并结合对象的不同属性;(2) 局部/全局区域的目标域所使用的样式来自源域中相应的空间区域,直观上是一种更合理的映射;(3) 联合训练过程既有利于细化粒度,也有利于粗粒度,并结合实例信息来提高全局翻译的质量。我们还为新的实例级翻译任务收集了一个大规模的基准。我们观察到,我们的合成图像甚至可以帮助完成真实世界的视觉任务,如一般物体检测。

01

Unsupervised Image-to-Image Translation Networks

大多数现有的图像到图像翻译框架——将一个域中的图像映射到另一个域的对应图像——都是基于监督学习的,即学习翻译函数需要两个域中对应的图像对。这在很大程度上限制了它们的应用,因为在两个不同的领域中捕获相应的图像通常是一项艰巨的任务。为了解决这个问题,我们提出了基于变分自动编码器和生成对抗性网络的无监督图像到图像翻译(UNIT)框架。所提出的框架可以在没有任何对应图像的情况下在两个域中学习翻译函数。我们通过结合权重共享约束和对抗性训练目标来实现这种学习能力。通过各种无监督图像翻译任务的可视化结果,我们验证了所提出的框架的有效性。消融研究进一步揭示了关键的设计选择。此外,我们将UNIT框架应用于无监督领域自适应任务,并取得了比基准数据集中的竞争算法更好的结果。

06

通过卫星和街道图像进行多模式深度学习,以测量城市地区的收入,拥挤度和环境匮乏

摘要:以大规模和低成本收集的数据(例如卫星和街道图像)有可能显着提高分辨率,空间覆盖率和测量城市不平等现象的时间频率。对于给定的地理区域,通常可以使用来自不同来源的多种类型的数据。然而,由于联合使用方法上的困难,大多数研究在进行测量时都使用单一类型的输入数据。我们提出了两种基于深度学习的方法,以结合利用卫星图像和街道图像来测量城市不平等现象。我们以伦敦为例,对三项选定的产出进行了案例研究,每项产出均按十分位类别衡量:收入,人满为患和环境剥夺。我们使用平均绝对误差(MAE)将我们提出的多峰模型与相应的单峰模型的性能进行比较。首先,将卫星图块附加到街道级别的图像上,以增强对可获得街道图像的位置的预测,从而将精确度提高20%,10%和9%,以收入,人满为患和居住环境的十分位数为单位。据我们所知,第二种方法是新颖的,它使用U-Net体系结构以高空间分辨率(例如,在我们的实验中为伦敦的3 m×3 m像素)对城市中的所有网格单元进行预测。它可以利用全市范围内的卫星图像可用性,以及从可用的街道级别图像中获得的稀疏信息,从而将准确性提高6%,10%和11%。我们还显示了两种方法的预测图示例,以直观地突出显示性能差异。

04

NeuroImage:左缘上回和角回对情景记忆编码的贡献:一项颅内脑电图研究

根据双层注意模型,左腹外侧顶叶皮质(VPC)在情景记忆中的作用包括自下而上的注意定向到回忆的事物。研究表明它既有阳性相继记忆效应,也有阴性相继记忆效应。此外,很少有研究比较这一功能在异质性区域内各亚区的相对贡献,特别是前部VPC(缘上回/BA40)和后部VPC(角回/BA39)。为了阐明VPC在事件编码中的作用,本研究比较了24例留置电极癫痫患者在缘上回(SmG)和角回(AnG)多个频段颅内脑电的SME。研究发现VPC总体上存在显著的θ功率降低和高γ功率增加的SME,尤其是在SmG。此外,SmG在刺激后0.5~1.6s表现出明显的频谱倾斜SME,其中回忆词与未回忆词的功率谱斜率差异大于AnG中的差异(p=0.04)。这些结果肯定了VPC对情景记忆编码的贡献,并显示VPC在电生理基础上存在前后分离。

00

[Redis] redis的设计与实现-对象系统

1.redis并没有直接使用前面的数据结构实现键值对数据库,而是基于数据结构创建了一个对象系统,字符串对象/列表对象/哈希对象/集合对象/有序集合对象都用到了至少一种前面的数据结构 2.针对不同的使用场景,为对象设置多种不同的数据结构实现,从而优化对象在不同场景下的使用效率 3.redis的对象系统实现了基于引用计数的内存回收机制,通过引用计数实现了对象共享机制,多个键共享同一个对象节约内存 4.redis对象带有访问时间记录信息,会计算键的空转时长,开启maxmemory下会优先删除长的 5.创建一个键值对时,至少创建两个对象,键对象和值对象redisObject结构定义,type属性记录了对象的类型,用type命令的时候返回的是值对象的类型 6.redisObject结构的ptr属性,指向对象的底层数据结构,encoding属性encoding属性决定了该对象使用哪个底层数据结构(整数/简单动态字符串/字典/双端链表/压缩列表/整数集合/跳跃表和字典),object encoding命令可以查看值对象的编码 7.列表对象在元素比较少时使用压缩列表,比较多时使用双端链表 9.字符串对象可以是int,raw(简单动态字符串),embstr(embstr编码的简单动态字符串),long类型的整数存的是时候是int;小于32字节的是embstr,大于的是raw 10.列表对象可以是ziplist(压缩列表)和linkedlist(双端链表),列表对象保存的所有字符串元素的长度都小于64字节和元素数量小于512个时使用ziplist rpush book "aaaaaaaaaaaaaa" "bbbbbbbbbbb"等进行测试 11.哈希对象的编码可以是ziplist或者hashtable;当使用ziplist编码时,当有新的键值对加入到哈希对象,先把键压入压缩列表,再把值压入压缩列表 12.当使用hashtable编码的哈希对象,使用字典作为底层实现,哈希对象中的每个键值对都使用字典的键值对保存 13.哈希对象保存的所有键值对的键和值字符串长度都小于64字节,保存键值对的数量小于512个,使用ziplist编码,否则使用hashtable编码 14.哈希对象中键的长度太大或者值的长度太大都会引起编码转换,使用object encoding key可以观察到 hset book aaaaaaaaaaa_name "aa"等进行测试 15.集合对象的编码可以是intset或者hashtable,intset的集合对象使用整数集合作为底层,当元素数量不超过512个,所有元素都是整数的时候;hashtable编码的使用字典作为底层实现,字典的键是字符串对象,字典的值是null;不能重复,不保证顺序,保证数据唯一 16.有序集合的编码是ziplist和skiplist,压缩列表的集合元素按分值从下到大进行排序,使用ziplist编码的,第一个节点保存元素的成员,第二个节点保存元素的分值;skiplist底层使用zset结构同时包含一个字典和一个跳跃表,对有序集合的范围操作比如zrank,zrange是通过跳跃表实现;取给定成员的分值,是通过字典实现的 保存元素小于128个,所有成员长度小于64字节的使用ziplist,其他使用skiplist

03

干货 | DeepMind 提出 GQN,神经网络也有空间想象力

AI 科技评论按:人类理解一个视觉场景的过程远比看上去复杂,我们的大脑能够根据已有的先验知识进行推理,推理的结果所能涵盖的内容也要远超出视网膜接收到的光线模式的丰富程度。比如,即便是第一次走进某个房间,你也能马上就认出房间里都有哪些东西、它们的位置又都在哪里。如果你看到了一张桌子下面有三条腿,你很容易推断出来很有可能它还有一条一样形状、一样颜色的第四条腿,只不过现在不在可见范围里而已。即便你没法一眼看到房间里所有的东西,你也基本上能描绘出房间里的大致情况,或者想象出从另一个角度看这间房间能看到什么。

03
领券