呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!
本文介绍了用于机器人和自动化系统的加速和保证安全的方法和设备。具体来说,它涉及用于生成和验证机器人和自动化系统轨迹的算法和技术,以确保它们在存在不确定性和扰动的情况下安全且高效地执行任务。这些方法包括使用强化学习来训练规划器,以便在具有挑战性的环境中进行实时决策,并使用自适应控制技术来确保系统轨迹的准确性和安全性。本文还讨论了这些方法在实际应用中的可能应用,包括用于机器人和自动化系统的控制和导航,以及用于其他领域,如机器人视觉和控制、无人机的导航和无线通信等。
现有的视觉跟踪方法通常以图像块作为目标的参考来进行跟踪。然而,单个图像块无法提供目标对象的完整和精确的概念,因为图像的抽象能力有限并且可能是模糊的,这使得跟踪变化剧烈的目标变得困难。在本文中,我们提出了 CiteTracker,通过连接图像和文本来增强视觉跟踪中的目标建模和推理。具体来说,我们开发了一个文本生成模块,将目标图像块转换为包含其类别和属性信息的描述性文本,为目标提供全面的参考点。此外,还设计了动态描述模块来适应目标变化,以实现更有效的目标表示。然后,我们使用基于注意力的相关模块将目标描述和搜索图像关联起来,以生成目标状态参考的相关特征。在五个不同的数据集上进行了广泛的实验来评估所提出的算法,并且相对于最先进的方法的良好性能证明了所提出的跟踪方法的有效性。源代码和训练模型将在 https://github.com/NorahGreen/CiteTracker 发布。
Chethan Pandarinath是佐治亚理工学院的生物医学工程师,他想帮助瘫痪病人操作机械臂,让他们也能像正常人那样抓取目标。要解决这个问题,首先要识别神经系统中发出的和“移动手臂”相关的电信号,尤其是大脑中的电信号,再将这个信号传给接收装置。
首先观看→https://www.youtube.com/watch?v=KcJJOI2TYJA 问题:快速和安全的运动规划 实时自主的运动规划和导航是很困难的,尤其前提是在是否具备安全性的时候。当出
经典机器学习(ML)都在关注如何利用可获得的数据来给出更精确的预测。然而最近,研究者们开始考虑其它一些重要的东西,比如如何将算法设计得小巧、高效和具有鲁棒性。
编译 | 莓酊 编辑 | 青暮生成辐射场的发展推动了3D感知图像合成的发展。由于观察到3D对象从多个视点看起来十分逼真,这些方法引入了多视图约束作为正则化,以从2D图像学习有效的3D辐射场。尽管取得了进展,但由于形状-颜色的模糊性,它们往往无法捕获准确的3D形状,从而限制了在下游任务中的适用性。在这项研究工作中,来自马普所和港中文大学的学者通过提出一种新的着色引导生成隐式模型ShadeGAN来解决这种模糊性,它学习了一种改进的形状表示。 论文地址:https://arxiv.org/pdf/2110.15
原文地址:http://theory.stanford.edu/~amitp/GameProgramming/
A*算法是一种大规模静态路网中求解最短路径最有效的搜索方法,相比于Dijkstra算法,它提供了搜索方向的启发性指引信息,在大多数情况下大大降低了Dijkstra算法无效的冗余的扩展搜索,因此也成为自动驾驶路径规划中的首选算法。
这样就可以让多个 Teacher 的对象共用一个方法,我们可以在控制台中看到,实际上这个方法存在父类(prototype)里面。
【新智元导读】斯坦福大学计算机视觉实验室李飞飞团队的最新研究提出一个新的机器人学习框架:神经任务编程(NTP),在机械臂的物品堆叠、分拣和桌面清理三类任务中,证明该框架具有强大的泛化到未知任务的能力。
论文地址:https://arxiv.org/pdf/2004.01888v2.pdf
---- 新智元报道 编辑:好困 Aeneas 【新智元导读】GAN要卷土重来了?AI绘图圈被Diffusion模型独领风骚的日子,可能要被DragGAN打破了。 5月18日,一颗炸弹在AI绘图圈炸响。 从此,AI可以精准修图了,哪里不准修哪里,AIGC,已然到达了全新的里程碑! 这篇引爆绘图圈的核弹级论文,名为「Drag Your GAN」,由MPII、MIT、宾大、谷歌等机构的学者联合发布。目前已被SIGGRAPH 2023录用。 而且因为太过火爆,这个项目一经发布,网页就经常处于崩溃状态。
Ontology 的 NeoVM 虚拟机新增加了 DCALL、HAS_KEY、KEYS 以及 VALUES 等几条新的指令。因此,基于 NeoVM 的引用性动态语言对象的设计理论上可行,这可使得当前语言的支持能更接近原生语义。
文章:Coarse-to-fine Hybrid 3D Mapping System with Co-calibrated Omnidirectional Camera and Non-repetitive LiDAR
有很多精彩的文章探讨了如何使用Intersection Observer API,包括Phil Hawksworth,Preethi和Mateusz Rybczonek等。我这篇文章将讲一些不一样的东西。我在今年早些时候有幸向达拉斯VueJS聚会介绍了VueJS过渡组件,我在CSS-Tricks的第一篇文章就是以此为基础的。在演讲的问答环节中,有人问我基于滚动事件触发过渡怎么样 - 我说当然可以,但是一些听众建议我了解一下Intersection Observer。
k近邻算法(k-Nearest Neighbor,简称kNN):给定一个训练数据集,对于新的输入实例,在训练数据集中找到与该实例最接近的
其中,bx、by表示汽车中点,bh、bw分别表示定位框的高和宽。以图片左上角为(0,0),以右下角为(1,1),这些数字均为位置或长度所在图片的比例大小。
RPN全称是Region Proposal Network,也可理解为区域生成网络,或区域候选网络;它是用来提取候选框的。
目标检测是计算机视觉中最基本的任务之一,也是许多视觉应用的关键组成部分,包括实例分割、人体姿态分析、视觉推理等。
转向行为(steering behaviors)这一术语,指的是一系列使对象行动起来像似长有智商的算法。这些行为都归于人工智能或人工生命一类,是让对象呈现出拥有生命一般,对如何移动到目的地、捕捉或逃避其它对象、避开障碍物、寻求路径等做出因地适宜的决定。 介绍行为,了解行为,展示一个实现这些行为的框架。一些行为根据复杂度不同,实现起来有多种不同方式。所有行为都不存在一个标准或者正确的做法,实现上给出的也是很简单的样式。换句话说,仅从介绍和展示的角度去考虑实现。要是用于产品开发的话,提供的代码需要根据要求做大量
【新智元导读】一般认为,大脑对可视目标的识别过程分为两部分:视觉属性和语义属性,即目标“像什么“和”是什么“。过去人们对这两部分一般是分开研究的,现在,剑桥大学的研究人员利用计算机视觉的标准深度神经网络AlexNet,可以将二者结合起来研究,并探寻它们之间的信息交互和映射关系究竟是怎样的。
今年自己做了不少业余的 LLM demo/PoC 级的应用,前前后后使用了几种向量数据库(Vector Database),包括尚不能称之为向量数据库的 FAISS,玩票性质的 redisearch 和 pgvector,闭源的 SAAS 服务 pinecone,以及使用 Rust 构建的 qdrant 和 lancedb。这些向量数据库各有千秋,支持的索引技术不尽相同,但它们都试图解决传统数据库或者搜索引擎在搜索高维度信息时的力不从心的问题。
代码:https://github.com/xingyizhou/CenterNet2
在成为南洋理工大学的助理教授之前,他是马克斯·普朗克计算机科学研究所的博士后研究员,由Christian Theobalt教授指导。
提出了一种充分利用立体图像中稀疏、密集、语义和几何信息的自主驾驶三维目标检测方法。我们的方法,称为Stereo R-CNN,扩展了Faster R-CNN的立体输入,以同时检测和关联目标的左右图像。我们在立体区域建议网络(RPN)之后添加额外的分支来预测稀疏的关键点、视点和目标维数,并结合二维左右框来计算粗略的三维目标边界框。然后,我们恢复准确的三维包围框,以区域为基础的光度比对使用左和右ROI。我们的方法不需要深度输入和三维位置监督,但是,优于所有现有的完全监督的基于图像的方法。在具有挑战性的KITTI数据集上的实验表明,我们的方法在三维检测和三维定位任务上都比目前最先进的基于立体的方法高出30%左右的AP。
强化学习(RL)可以从两个不同的视角来看待:优化和动态规划。其中,诸如REINFORCE等通过计算不可微目标期望函数的梯度进行优化的算法被归类为优化视角,而时序差分学习(TD-Learning)或Q-Learning等则是动态规划类算法。
实时自主运动和导航是很难的,特别是当我们关心安全性时。当我们的动力系统复杂,以及外部干扰(如风)和先验条件未知时,这变得更加困难。我们在这项工作中的目标是为了保证“鲁棒性“实时运动系统在动态系统导航过程中的安全。
Sarah Lewis: Embrace the near win 成功是一个瞬间, 然而我们总是在庆祝 创新和卓越。 **我们如何将一次成功 转化为卓越的成就呢? ** 我想这个转换在于我们开始 重视每一次 “差一点的成功”。 所谓的 “弓箭手悖论”, 就是说,为了击中目标, 你必须在瞄准时稍微偏离目标。 看上去这么傻, 还要如此精确。 这意味着你要摆好姿势, 坚持 3 个小时去射击一个目标, 在一片模糊中追寻卓越。 成功和卓越的区别 成功在我看来是一次事件, 一个时刻, 一个世界赋予你的标签。 卓越
在Git中,高级分支策略是为了有效地管理和整合分支而设计的。其中一个关键方面是分支合并策略,它定义了如何将一个分支的更改合并到另一个分支。以下是几种常见的分支合并策略:
今天给大家介绍的是来自波兰科学院有机化学研究所及韩国蔚山国家科技术大学(UNIST)联合在线发表在Nature上的文章。在本文中,作者对由人工智能驱动的计算机辅助合成软件工具Chematica加以改进,使得进阶版的Chematica可以为复杂的天然产物设计合成路径,并通过类似于人机对比的图灵测试和合成验证来评估其合成能力。结果表明,在反应知识库不断改进和代码进一步优化的情况下,专家级的自动合成规划终将变得可行。
文章:Semantic Visual Simultaneous Localization and Mapping: A Survey
并且在解决诸如:玩视频游戏、连续控制和机器人学习等具有挑战性的任务方面,取得了显着成功。
虽然直接法SLAM在无纹理环境更加鲁棒,但是由于灰度图像的凸性特征导致光度误差的凸性仅在一个小区域内保持的问题,所以传统的直接法视觉SLAM在当跟踪点有较大位移时,可能陷入次优局部极小解,具体问题描述如下图,左边分别是对应区域的灰度图和语义概率图,右图相应的三维可视化,灰度图像保留了对象的细节,而道路的概率主要在道路边界上进行生成,对于语义对象边界上的点,语义概率的凸性在比灰度图像更大的区域中成立。
本系列为吴恩达老师《深度学习专项课程(Deep Learning Specialization)》学习与总结整理所得,对应的课程视频可以在这里查看。
在这节课中,我们将讨论主成分分析(PCA)和聚类(clustering)这样的无监督学习方法。你将学习为何以及如何降低原始数据的维度,还有分组类似数据点的主要方法。
项目地址:https://github.com/opencv/open_model_zoo
文章:Lidar with Velocity: Motion Distortion Correction of Point Clouds from Oscillating Scanning Lidars
论文地址:https://arxiv.org/pdf/2005.13243.pdf
来源 | 经授权转载自 思码逸研发效能 公众号 降本增效,迫在眉睫 几年前,随着粗放式增长的红利见顶,降本增效成为企业内的高频词汇;近两年在疫情冲击和经济下行的背景下,更是成为不得不重视的议题。美团亦将系统性的降本增效作为 2022 年度的三个关键命题之一。 软件研发团队作为许多科技企业的成本中心,同样需要更精细化的管理来降本增效。过去高速成长期用不着关注、来不及关注的低效点,如今都已是不能承受之重。 研发团队如何在精打细算的同时,依然高效率、高质量、可靠且可持续地交付价值,支持业务侧去应对快速变化的市
AI 科技评论按:近日,谷歌在官方博客上开源了强化学习深度规划网络 PlaNet,PlaNet 成功解决各种基于图像的控制任务,最终性能与先进的无模型智能体相比,在数据处理效率方面平均提高了 5000%。
对整张图片进行卷积操作,一次得到所有预测值,如果足够幸运,神经网络便可以识别出目标的位置
【新智元导读】计算机视觉国际顶尖会议CVPR2016近日召开,从提交论文和口头报告内容看,深度学习成为主流。本文介绍会议概况及相关成果,比如谷歌教计算机学会分辨并预测视频中关键目标。同时也介绍法国 Inria 研究所 Nikos Paragios 的担忧:眼下计算机视觉领域过于关注深度学习,如果是一时的热潮还好,但研究者应该保持研究多样化,坚持基础理论研究。 2016年的计算机视觉领域国际顶尖会议 Computer Vision and Pattern Recognition conference(CVP
Mask R-CNN是基于Faster R-CNN的基于上演进改良而来,FasterR-CNN并不是为了输入输出之间进行像素对齐的目标而设计的,为了弥补这个不足,我们提出了一个简洁非量化的层,名叫RoIAlign,RoIAlign可以保留大致的空间位置,除了这个改进之外,RoIAlign还有一个重大的影响:那就是它能够相对提高10%到50%的掩码精确度(Mask Accuracy),这种改进可以在更严格的定位度量指标下得到更好的度量结果。第二,我们发现分割掩码和类别预测很重要:为此,我们为每个类别分别预测了一个二元掩码。基于以上的改进,我们最后的模型Mask R-CNN的表现超过了之前所有COCO实例分割任务的单个模型,本模型可以在GPU的框架上以200ms的速度运行,在COCO的8-GPU机器上训练需要1到2天的时间。
通过强化学习 (RL),对 AI 智能体如何随着时间的推移提高决策能力的研究进展迅速。
卡尔曼滤波器是传感器融合工程师用于自动驾驶汽车的工具。想象一下,你有一个雷达传感器,告诉你另一辆车距离15米,一个激光传感器说车辆距离20米。你如何协调这些传感器测量?这就是卡尔曼滤波器的功能。卡尔曼滤波在自动驾驶汽车上的应用十分广泛,本文讲述卡尔曼滤波算法,希望对你有所帮助。
选自Athelas 作者:Dhruv Parthasarathy 机器之心编译 参与:王宇欣、hustcxy、黄小天 卷积神经网络(CNN)的作用远不止分类那么简单!在本文中,我们将看到卷积神经网络(CNN)如何在图像实例分割任务中提升其结果。 自从 Alex Krizhevsky、Geoff Hinton 和 Ilya Sutskever 在 2012 年赢得了 ImageNet 的冠军,卷积神经网络就成为了分割图像的黄金准则。事实上,从那时起,卷积神经网络不断获得完善,并已在 ImageNet 挑战上超
随着神经网络体系结构、深度学习和机器学习研究的快速发展,以及不断增加的硬件+软件资源,很多特别棒的演示项目数量正以令人眼花缭乱的速度增长。
本文实例讲述了PHP设计模式:建造者模式Builder。分享给大家供大家参考,具体如下:
如果说对象是70年代以来软件界最激动人心的革新之一,那么,Agent的相关理论和技术,为分布式开放系统的设计与实现提供了新的途径,可以称之为软件开发的又一重大突破。讨论问题的前提是概念的澄清,什么是对象?什么是Agent ?二者又有哪些区别和联系呢?
领取专属 10元无门槛券
手把手带您无忧上云