linux vlm_#define TheVLM(x)VLM :: Global() - > x TheVLM(Run());_linux ssh linux - 腾讯云开发者社区

边缘计算涉及到多种技术和组件的集成，包括硬件、操作系统、网络、数据处理等。开发者需要具备跨领域的知识和技能，以应对技术上的复杂性和多样性。这种技术复杂性往往导致开发周期延长，项目风险增加，尤其是在构建复杂的人工智能（AI）应用时，需要深厚的机器学习、深度学习等AI技术背景。开发者需要理解各种AI算法的原理和应用场景，以便选择合适的算法来解决问题。

6行代码，1行命令！轻松实现多模态（视觉）模型离线推理&在线服务

早在去年年底，LMDeploy 已经悄悄地支持了多模态（视觉）模型（下文简称 VLM）推理，只不过它静静地躺在仓库的 examples/vl 角落里，未曾与大家正式照面。

您找到你想要的搜索结果了吗？

是的

没有找到

加速2-3倍，哈工大｜提出多模态大模型自适应剪枝算法：SmartTrim

让AI模型成为GTA五星玩家，基于视觉的可编程智能体Octopus来了

电子游戏已经成为如今现实世界的模拟舞台，展现出无限可能。以游戏《侠盗猎车手》（GTA）为例，在 GTA 的世界里，玩家可以以第一人称视角，在洛圣都（游戏虚拟城市）当中经历丰富多彩的生活。然而，既然人类玩家能够在洛圣都里尽情遨游完成若干任务，我们是否也能有一个 AI 视觉模型，操控 GTA 中的角色，成为执行任务的 “玩家” 呢？GTA 的 AI 玩家又是否能够扮演一个五星好市民，遵守交通规则，帮助警方抓捕罪犯，甚至做个热心肠的路人，帮助流浪汉找到合适的住所？

让视觉语言模型搞空间推理，谷歌又整新活了

视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展，包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难，比如需要理解目标在三维空间中的位置或空间关系的任务。

大模型勇闯洛圣都，加封「GTA五星好市民」！南洋理工、清华等发布视觉可编程智能体Octopus：打游戏、做家务全能干

以游戏《侠盗猎车手》（GTA）为例，在GTA的世界里，玩家可以以第一人称视角，在洛圣都（游戏虚拟城市）当中经历丰富多彩的生活。

谷歌打造「终结者」！ChatGPT版最强机器人AGI，动嘴操控007

本次版本更新的主角是谷歌DeepMind推出的「视觉-语言-动作」（vision-language-action，VLA）模型！

离职谷歌的Transformer作者创业，连发3个模型（附技术报告）

去年 8 月，两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布创立一家人工智能公司 Sakana AI，总部位于日本东京。其中，Llion Jones 是谷歌 2017 年经典研究论文《Attention is all you need》的第五作者，该论文提出了深度学习架构 transformer。transformer 对整个机器学习领域产生了重要影响，并且是 ChatGPT 等生成式 AI 模型的基础。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

大模型的出色能力有目共睹，而如果将它们整合进机器人，则有望让机器人拥有一个更加智能的大脑，为机器人领域带来新的可能性，比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。

VG4D | 突破4D点云识别局限，融合视觉-语言模型实现动作识别新高度！

近期，机器人技术和自动驾驶系统利用实时的深度传感器，如激光雷达（LiDARs），来实现三维感知。激光雷达产生的点云可以提供丰富的几何信息，并帮助机器理解环境感知。早期方法集中于从静态点云中解析现实世界，忽略了时间变化。为了更好地理解时间变化的世界，近期研究更专注于在4D空间理解点云视频，包括三个空间维度和一个时间维度。已有几项工作在4D点云建模方面取得进展。这些方法要么旨在设计改进的网络来建模4D点云，要么采用自监督方法来提高4D点云表示的效率。

Windows、Office直接上手，大模型智能体操作电脑太6了

当我们谈到 AI 助手的未来，很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手，更是他与先进科技的沟通者。如今，大模型的出现颠覆了人类使用工具的方式，我们或许离这样的科幻场景又近了一步。想象一下，如果一个多模态 Agent，能够直接像人类一样通过键盘和鼠标直接操控我们身边的电脑，这将是多么令人振奋的突破。

清华叉院、理想提出DriveVLM，视觉大语言模型提升自动驾驶能力

与生成式 AI 相比，自动驾驶也是近期 AI 最活跃的研究和开发领域之一。要想构建完全的自动驾驶系统，人们面临的主要挑战是 AI 的场景理解，这会涉及到复杂、不可预测的场景，例如恶劣天气、复杂的道路布局和不可预见的人类行为。

VLM：Meta AI & CMU提出任务无关视频语言模型视频理解预训练VLM，代码已开源！(ACL 2021)

本文分享 ACL 2021 论文『VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding』，由 Meta AI & CMU 联合提出任务无关视频语言模型视频理解预训练 VLM，代码已开源！

【综述】基于Transformer的视频语言预训练

Survey: Transformer based Video-Language Pre-training

多模态模型学会打扑克：表现超越GPT-4v，全新强化学习框架是关键

这种方法得到的模型，已经学会了看图玩扑克、算“12点”等任务，表现甚至超越了GPT-4v。

强化学习大牛Sergey Levine新作：三个大模型教会机器人认路

机器之心报道机器之心编辑部内置大模型的机器人，在不看地图的情况下，学会了按照语言指令到达目的地，这项成果来自强化学习大牛 Sergey Levine 的新作。给定一个目的地，在没有导航轨迹的情况下顺利到达，有多难？对于方向感不好的人类来说，这个任务也是很有挑战性。但在最近的一项研究中，几位学者只用三个预训练模型就把机器人「教会了」。我们都知道，机器人学习的核心挑战之一是使机器人能够按照人类的高级指令执行各种各样的任务。这就要求机器人能够理解人类的指令，并配备大量不同的动作，以便在现实世界中执行这

让VLM知之为知之，不知为不知——以chart2json任务为例

论文：OneChart: Purify the Chart Structural Extraction via One Auxiliary Token 主页及demo：https://onechartt.github.io/

Xmodel-VLM | 多模态视觉语言模型，解决高成本难题，实现高效部署！

近年来，自然语言处理（NLP）与计算机视觉的结合在多模态学习领域引发了重大创新和突破。特别是，如GPT-4V [30] 和 Gemini [39]等先进的视觉语言模型（VLMs）利用文本与视觉数据的协同作用，实现了对世界的先进理解和交互。凭借其强大的能力，它们在各种下游视觉语言任务中表现出色。

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

LLM已经可以理解文本和图片了，也能够根据它们的历史知识回答各种问题，但它们或许对周围世界当前发生的事情一无所知。

每日学术速递12.19

1.VILA: On Pre-training for Visual Language Models

骁龙888实时运行，美团、浙大等打造全流程移动端多模态大模型MobileVLM

MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术，包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型，以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中，MobileVLM 的性能可媲美大型模型。此外，它还在高通骁龙 888 CPU 和英伟达 Jeston Orin GPU 上展示了最快的推理速度。

【源头活水】最新月份计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题！

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注！

融合视觉语言模型 HPE-CogVLM | 基于LoRA层,利用 CogVLM 的视觉定位能力来增强 HPE 预测任务！

如今， Head 姿态估计（HPE）技术可应用于诸如注意力估计、面部识别、客户行为分析、驾驶员辅助系统以及人机交互[39]等各个领域。这项任务涉及从图像或视频中预测人类 Head 的欧拉角（偏航、俯仰和翻滚）。最近一些非大型语言模型（Non-LLMs）如6DRepNet[11]、HopeNet[36]和WHENet[57]在HPE上的研究努力，已经取得了显著的进展。

斯坦福大学 & 亚马逊 AI 探索视觉-语言模型的前沿，当前方法与未来方向的调查！

大型语言模型（LLM）的出现标志着人工智能一个转型时代的开始， Reshape 了整个领域。跨越学术界和工业界的研究实验室正积极参与一场竞争，以推进LLM的能力。然而，一个值得注意的限制已经显现出来——这些模型仅限于处理单一类型的数据，特别是文本。这一限制凸显了在追求完善LLM以跨多个模态无缝运行的过程中一个关键挑战，这标志着在AI领域进一步创新的一个重要方向。

北大最新多模态大模型开源：在混合数据集上训练，无需修改直接用到图像视频任务

北大和中山大学团队又出招了——在最新研究中，研究团队提出了一种构建统一的图片和视频表征的框架。

2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题

我们今天总结下2024年5月发表的最重要的论文，重点介绍了计算机视觉领域的最新研究和进展，包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题。

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

一直以来，DeepMind 引领了强化学习（RL）智能体的发展，从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato，智能体的训练方法和能力都在不断演进。

DeepMind首提「统一智能体」！大模型做推理，赋能终身学习，AI王者加冕

来自Google DeepMind研究团队，设计了一个框架，使用语言作为核心推理工具，探索让智能体解决一系列基本的RL挑战。

280万条多模态指令-响应对，八种语言通用，首个涵盖视频内容的指令数据集MIMIC-IT来了

近段时间来，AI 对话助手在语言任务上取得了不小的进展。这种显著的进步不只是基于 LLM 强大的泛化能力，还应该归功于指令调优。这涉及到在一系列通过多样化和高质量指令的任务上对 LLM 进行微调。

Vary-toy—年轻人的第一个多模大模型

在上一篇工作 Vary 中，我们第一次提出了CLIP视觉词表在密集感知能力上的不足，并给出了一种简单有效的扩充词表方案。Vary发布后得到了不少朋友的关注（目前已1.2k+ star），但也有不少人因为资源受限运行不了。

谁是最强多模态模型？评测框架 VLMEvalKit 全方位揭秘多模态能力

不同的多模态模型通常会提供不同评测集上的测试结果，但迄今为止，尚无一个统一的开源评测框架来全面覆盖这些多样化的模型和评测集。

懂3D的语言模型来了！UCLA、上交、MIT等联合提出3D-LLM：性能大涨9%

大型语言模型（LLM）和视觉语言模型（VLM）在各种评测基准中都展现出了强大的性能，比如可以看图说话、进行常识推理。

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

近年来，大模型的研究正在加速推进，它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求，这自然引申出一个问题：能不能充分利用大模型能力，将其迁移到机器人领域，直接规划底层动作序列呢？

告别逐一标注，一个提示实现批量图片分割，高效又准确

Segment Anything Model (SAM) 的提出在图像分割领域引起了巨大的关注，其卓越的泛化性能引发了广泛的兴趣。然而，尽管如此，SAM 仍然面临一个无法回避的问题：为了使 SAM 能够准确地分割出目标物体的位置，每张图片都需要手动提供一个独特的视觉提示。如下图所示，即使点击的是同一物体（图 (b)-(d)），微小位置变化都会导致分割结果的显著差异。这是因为视觉提示缺乏语义信息，即使提示在想要分割的目标物体上，仍然可能引发歧义。框提示和涂鸦提示（图 (e)(f)）虽然提供了更具体的位置信息，但由于机器和人类对目标分割物的理解存在偏差，效果常常与期望有所出入。

Qt开源作品2-视频流播放vlc内核

上一个作品是ffmpeg内核做的，由于ffmpeg太过于强大，很多初学者会看的云里雾里懵逼状态，也有很多用户只需要一个简单的播放视频流即可，根本不需要涉及到负责的解码转码等，于是vlc就上场了，他就是直接对ffmpeg做了深层次的封装，提供了友好的接口，具备这种境界的还有个mpv之类的，mpv相比于vlc还更牛逼在库文件就一个，貌似是封装成了静态库，不想vlc还要带一堆的动态库文件和插件文件，当然vlc的简单在于只需要几行代码就可以撸起来，让初学者看到效果很重要，很兴奋，可以更快速的进行下一步的编码中，体验编码的乐趣。

谷歌DeepMind机器人成果三连发！两大能力全提升，数据收集系统可同时管理20个机器人

几乎是和斯坦福“炒虾洗碗”机器人同一时间，谷歌DeepMind也发布了最新具身智能成果。

普林斯顿 & AWS & Apple 提出 RAVEN | 多任务检索增强视觉-语言模型框架，突破资源密集型预训练的限制！

NLP模型规模快速增长，正如OpenAI的LLM发展所示，从GPT-2的15亿参数到GPT-3的1750亿（Brown et al., 2020），再到GPT-4的超一万亿，这引起了越来越多的关注。这一趋势需要更多的数据和计算能力，导致更高的碳排放，并为资源较少的研究行人带来重大障碍。作为回应，该领域正在转向如检索增强生成等方法，该方法将外部非参数的世界知识融入到预训练的语言模型中，无需将所有信息直接编码到模型的参数中。然而，这种策略在视觉-语言模型（VLMs）中尚未广泛应用，这些模型处理图像和文本数据，通常更加资源密集型。此外，VLMs通常依赖如LAION-5B 这样的大规模数据集，通过检索增强提供了显著提升性能的机会。

每日学术速递6.12

1.DynIBaR: Neural Dynamic Image-Based Rendering(CVPR 2023 Award Candidate)

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显著的成功。然而，作为许多下游任务的基础模型，当前的 MLLM 由众所周知的 Transformer 网络构成，这种网络具有较低效的二次计算复杂度。为了提高这类基础模型的效率，大量的实验表明：（1）Cobra 与当前计算效率高的最先进方法（例如，LLaVA-Phi，TinyLLaVA 和 MobileVLM v2）具有极具竞争力的性能，并且由于 Cobra 的线性序列建模，其速度更快。（2）有趣的是，封闭集挑战性预测基准的结果显示，Cobra 在克服视觉错觉和空间关系判断方面表现良好。（3）值得注意的是，Cobra 甚至在参数数量只有 LLaVA 的 43% 左右的情况下，也取得了与 LLaVA 相当的性能。

计算机视觉领域的基础模型

在计算摄影学的研究和应用中，计算机视觉（Computer Vision）技术扮演了至关重要的角色。计算机视觉不仅帮助我们理解和处理图像和视频数据，还为我们提供了丰富的工具和方法，以提升摄影和图像处理的效果。为了帮助大家更好地理解和应用这些技术，我准备也在星球中介绍更多关于计算机视觉的内容，首先我会引用一些文章，来介绍“计算机视觉领域的基础模型”。

机器人ChatGPT来了：大模型进现实世界，DeepMind重量级突破

我们知道，在掌握了网络中的语言和图像之后，大模型终究要走进现实世界，「具身智能」应该是下一步发展的方向。

光动嘴就能玩原神！用AI切换角色，还能攻击敌人，网友：“绫华，使用神里流·霜灭”

大数据文摘出品作者：原神长期长草玩家说到这两年风靡全球的国产游戏，原神肯定是当仁不让。根据5月公布的本年度Q1季度手游收入调查报告，在抽卡手游里《原神》以5.67亿美金的绝对优势稳稳拿下第一，这也宣告《原神》在上线短短18个月之后单在手机平台总收入就突破30亿美金（大约RM130亿）。如今，开放须弥前最后的2.8海岛版本姗姗来迟，在漫长的长草期后终于又有新的剧情和区域可以肝了。不过不知道有多少“肝帝”，现在海岛已经满探索，又开始长草了。宝箱总共182个+1个摩拉箱（不计入）长草期根本没

每日学术速递12.27

1.StarVector: Generating Scalable Vector Graphics Code from Images

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐