首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    加利福尼亚大学提出 EM-VLM4AD | 轻量级、多帧的视觉-语言模型,减少10倍的内存和浮点运算!

    视觉-语言模型(VLMs)已经成为一种强大的工具,它们具备整体知识,能够解决视觉和语言交叉领域的问题。这使得它们在自动驾驶(AD)中具有巨大的潜力,允许驾驶员与VLM互动,VLM能够提供各种驾驶安全任务的易于理解的语言表示。此外,VLM可以作为端到端的自动驾驶系统,消除了在自动驾驶特定子任务(如感知和轨迹规划)的单独模型之间的集成和传播错误。这些潜在的好处推动了许多为自动驾驶应用量身定制的视觉-语言模型和多模态语言模型的发展。这些模型涵盖了自动驾驶的各个方面,包括闭环控制、感知任务和交通代理行为分析。

    01

    COLING24|自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim

    基于 Transformer 结构的视觉语言大模型(VLM)在各种下游的视觉语言任务上取得了巨大成功,但由于其较长的输入序列和较多的参数,导致其相应的计算开销地提升,阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度,前人提出了一些针对 VLM 的加速方法,包括剪枝和蒸馏等,但是现有的这些方法大都采用静态架构,其针对不同输入实例采用同样的计算图进行推理,忽略了不同实例之间具有不同计算复杂性的事实:针对复杂的跨模态交互实例,自然需要更多计算才能完全理解图像和相关问题的复杂细节;相反,简单的实例则可以用更少的计算量解决。这也导致较高加速比下的 VLM 的性能严重下降。

    01

    加速2-3倍,哈工大|提出多模态大模型自适应剪枝算法:SmartTrim

    基于 Transformer 结构的视觉语言大模型(VLM)在各种下游的视觉语言任务上取得了巨大成功,但由于其较长的输入序列和较多的参数,导致其相应的计算开销地提升,阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度,前人提出了一些针对 VLM 的加速方法,包括剪枝和蒸馏等,但是现有的这些方法大都采用静态架构,其针对不同输入实例采用同样的计算图进行推理,忽略了不同实例之间具有不同计算复杂性的事实:针对复杂的跨模态交互实例,自然需要更多计算才能完全理解图像和相关问题的复杂细节;相反,简单的实例则可以用更少的计算量解决。这也导致较高加速比下的 VLM 的性能严重下降。

    01

    强化学习大牛Sergey Levine新作:三个大模型教会机器人认路

    机器之心报道 机器之心编辑部 内置大模型的机器人,在不看地图的情况下,学会了按照语言指令到达目的地,这项成果来自强化学习大牛 Sergey Levine 的新作。 给定一个目的地,在没有导航轨迹的情况下顺利到达,有多难? 对于方向感不好的人类来说,这个任务也是很有挑战性。但在最近的一项研究中,几位学者只用三个预训练模型就把机器人「教会了」。 我们都知道,机器人学习的核心挑战之一是使机器人能够按照人类的高级指令执行各种各样的任务。这就要求机器人能够理解人类的指令,并配备大量不同的动作,以便在现实世界中执行这

    01

    告别逐一标注,一个提示实现批量图片分割,高效又准确

    Segment Anything Model (SAM) 的提出在图像分割领域引起了巨大的关注,其卓越的泛化性能引发了广泛的兴趣。然而,尽管如此,SAM 仍然面临一个无法回避的问题:为了使 SAM 能够准确地分割出目标物体的位置,每张图片都需要手动提供一个独特的视觉提示。如下图所示,即使点击的是同一物体(图 (b)-(d)),微小位置变化都会导致分割结果的显著差异。这是因为视觉提示缺乏语义信息,即使提示在想要分割的目标物体上,仍然可能引发歧义。框提示和涂鸦提示(图 (e)(f))虽然提供了更具体的位置信息,但由于机器和人类对目标分割物的理解存在偏差,效果常常与期望有所出入。

    01

    普林斯顿 & AWS & Apple 提出 RAVEN | 多任务检索增强视觉-语言模型框架,突破资源密集型预训练的限制 !

    NLP模型规模快速增长,正如OpenAI的LLM发展所示,从GPT-2的15亿参数到GPT-3的1750亿(Brown et al., 2020),再到GPT-4的超一万亿,这引起了越来越多的关注。这一趋势需要更多的数据和计算能力,导致更高的碳排放,并为资源较少的研究行人带来重大障碍。作为回应,该领域正在转向如检索增强生成等方法,该方法将外部非参数的世界知识融入到预训练的语言模型中,无需将所有信息直接编码到模型的参数中。然而,这种策略在视觉-语言模型(VLMs)中尚未广泛应用,这些模型处理图像和文本数据,通常更加资源密集型。此外,VLMs通常依赖如LAION-5B 这样的大规模数据集,通过检索增强提供了显著提升性能的机会。

    01

    首个基于Mamba的MLLM来了!模型权重、训练代码等已全部开源

    近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的 MLLM 由众所周知的 Transformer 网络构成,这种网络具有较低效的二次计算复杂度。为了提高这类基础模型的效率,大量的实验表明:(1)Cobra 与当前计算效率高的最先进方法(例如,LLaVA-Phi,TinyLLaVA 和 MobileVLM v2)具有极具竞争力的性能,并且由于 Cobra 的线性序列建模,其速度更快。(2)有趣的是,封闭集挑战性预测基准的结果显示,Cobra 在克服视觉错觉和空间关系判断方面表现良好。(3)值得注意的是,Cobra 甚至在参数数量只有 LLaVA 的 43% 左右的情况下,也取得了与 LLaVA 相当的性能。

    01

    光动嘴就能玩原神!用AI切换角色,还能攻击敌人,网友:“绫华,使用神里流·霜灭”

    大数据文摘出品 作者:原神长期长草玩家 说到这两年风靡全球的国产游戏,原神肯定是当仁不让。 根据5月公布的本年度Q1季度手游收入调查报告,在抽卡手游里《原神》以5.67亿美金的绝对优势稳稳拿下第一,这也宣告《原神》在上线短短18个月之后单在手机平台总收入就突破30亿美金(大约RM130亿)。 如今,开放须弥前最后的2.8海岛版本姗姗来迟,在漫长的长草期后终于又有新的剧情和区域可以肝了。 不过不知道有多少“肝帝”,现在海岛已经满探索,又开始长草了。 宝箱总共182个+1个摩拉箱(不计入) 长草期根本没

    02
    领券