暂无搜索历史
近期,多模态大型语言模型(MLLMs)因其能够理解和生成受视觉输入影响的语言而受到了广泛关注。这些模型融合了视觉和文本数据,使得应用范围涵盖了图像字幕生成、视觉...
视觉语言定位旨在识别由自然语言描述的视觉内容中的区域或目标[7, 21]。它作为当前具身代理连接符号概念与可感知现实世界的重要桥梁,使得代理的智能可以从感知决策...
图1:仅给出一个新颖主题(例如,一只名叫的狗)的几张图片,Yo’LLaVA就能学会围绕该主题促进文本/视觉对话。
视觉语言模型的出现导致了视觉理解的显著进步。特别是,高分辨率图像编码[7; 8]和更多视频帧的融合[9; 10]分别提高了大型视觉语言模型和大型视频语言模型的能...
自从引入了预训练的 Transformer [27]模型以来,它们在自然语言处理(NLP)[1, 6]和计算机视觉(CV)[2, 7, 28]的一系列任务中展现...
多模态大型语言模型(MLLMs)在视觉语言理解、视觉推理、视觉交互和定位方面取得了迅速发展。大多数MLLMs采用预训练的大型语言模型(LLMs)作为基础架构来处...
NLP模型规模快速增长,正如OpenAI的LLM发展所示,从GPT-2的15亿参数到GPT-3的1750亿(Brown et al., 2020),再到GPT-...
随着大型语言模型(LLM)展现出强大的性能,其在解决数学问题方面的应用变得越来越流行(Toshniwal等人,2024年;Wang等人,2023年;Gou等人,...
基于深度学习算法在结肠镜检查过程中检测癌前病变已显示出巨大潜力。近期,一种基础模型,即Segment Anything Model(SAM),被引入用于通用语义...
大型视觉语言模型(LVLMs)能够将图像和文本表示对齐,以理解跨越前所未有的真实世界数据规模的图像中的普遍关系,这已经在现代机器学习中呈现出显著的范式转变。许多...
在医学成像中,分割是一项关键且经常执行的活动,它允许提取关于感兴趣区域的精确结构信息。手动分割既繁琐又耗时,并且需要经验丰富的专家和医生才能得到准确的结果,因此...
道路运输对于促进城市和国家之间的交流至关重要。此外,道路建设保证了经济发展,这是人们安全旅行的前提,也是一个国家经济发展的不可或缺条件。路面裂缝和损伤是道路上遇...
数据集蒸馏能够在保留其基本信息和模型训练性能的同时,合成一个更小且更紧凑的数据集。由于它具有很高的压缩比,在机器学习和大规模模型数据的背景下尤其值得关注。然而,...
远程遥感图像语义分割涉及将大规模遥感图像中的像素分类到不同的类别中,以增强对遥感(RS)数据的分析和解释。这种大规模的语义分割对于自动驾驶[1]、城市规划[2]...
早期的去模糊方法主要关注非盲去模糊,恢复已知模糊核的图像。Pan等人[1]通过计算模糊图像中暗通道的稀疏性来准确计算模糊核,以恢复清晰图像。然而,这些传统方法在...
扩散 Transformer (DiT)最近在图像生成和视频生成中越来越受欢迎。然而,DiT的一个主要挑战是它们的计算需求量很大,特别是在生成高分辨率内容时特别...
在本文中,作者提出了一种新颖的地点识别方法,利用自动驾驶系统上安装的3D激光雷达(LiDARs)生成原始范围视图(RVs)。对这些RVs进行后续操作,生成用于识...
语义分割[1]使得机器能够以像素 Level 识别图像,这在实际应用中令人印象深刻。由于社区的持续努力,语义分割技术已经取得了显著进步,并发展出了新的能力,例如...
早期的视觉 Transformer (ViT)探索了利用文本 Transformer 的看似无限可扩展性[9]来处理图像的可行性,但由于缺乏足够的感应偏置,且没...
深度神经网络(DNNs)的采用对包括自动驾驶车辆[1],航空,医疗保健[2]和太空探索[3]在内的各个领域产生了重大影响,在这些领域中,高安全性和可靠性至关重要...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市