AI 科技评论按:本文由上海交通大学副教授牛力为 AI 科技评论提供的独家稿件,未经许可不得转载。
本文提出视觉相关的对象关系在语义理解上有更高的价值。在视觉关系学习表达中,我们需要关注于视觉相关关系,而避免对于视觉无关的信息学习。
本文对中科院自动化所胡占义团队完成,被AAAI-20录用的论文《Zero-Shot Learning from Adversarial FeatureResidual to Compact Visual Feature》进行解读。
【导读】本文提出视觉相关的对象关系在语义理解上有更高的价值。在视觉关系学习表达中,我们需要关注于视觉相关关系,而避免对于视觉无关的信息学习。由于现有数据中存在大量的非视觉的先验信息,方法上很容易学到简单的位置关系或单一固定关系,而不具备进一步推测学习语义信息的能力。从而导致现有关系数据的表征并不能明显提升语义相关任务性能。而本文提出明确了视觉关系学习中什么是值得学习的,什么是需要学习的。并且通过实验,也验证了所提出的视觉相关关系数据可以有效的提升特征的语义理解能力。
作者丨PaperWeekly编辑部 来源丨PaperWeekly 编辑丨AiCharm
剑桥大学的神经科学研究人员将计算机视觉与语义相结合,开发出一种新模型,有助于更好地理解大脑中物体的处理方式。
图像分割旨在将具有不同语义的像素进行分类进而分组,例如类别或实例,近年来取得飞速的发展。然而,由于深度学习方法是数据驱动的,对大规模标记训练样本的强烈需求导致了巨大的挑战,这些训练数据需要消耗巨大的时间以及人力成本。为处理上述难题,零样本学习(Zero-Shot Learning,ZSL)被提出用于分类没有训练样本的新对象,并扩展到分割任务中,例如零样本语义分割(Zero-Shot Semantic Segmentation, ZSS)和零样本实例分割(Zero-Shot Instance Segmentation, ZSI)。在此基础上,本文进一步引入零样本全景分割(Zero-Shot Panoptic Segmentation, ZSP)并旨在利用语义知识 构建一个通用的零样本全景/语义/实例分割框架 ,如图1所示。
来源丨https://zhuanlan.zhihu.com/p/379243930
论文地址:https://arxiv.org/pdf/2306.11087.pdf
【新智元导读】一般认为,大脑对可视目标的识别过程分为两部分:视觉属性和语义属性,即目标“像什么“和”是什么“。过去人们对这两部分一般是分开研究的,现在,剑桥大学的研究人员利用计算机视觉的标准深度神经网络AlexNet,可以将二者结合起来研究,并探寻它们之间的信息交互和映射关系究竟是怎样的。
虽然我从来没见过你,但是我有可能「认识」你 —— 这是人们希望人工智能在「一眼初见」下达到的状态。
《思想本质》一书通过语言和认知对人的思想认知等进行了分析,前部分有一个核心观点是(李德毅院士也提过):语言是认知的语义索引,语言只是符号,语言表达的含义即语言背后的认知体系是决定语言的根本。
目前,越来越多的视频数据被消耗用于机器分析,而不是纯粹由人类观看,例如在智能城市和视频物联网等应用中。现有的传统和神经编解码器已经实现了显著的率失真性能,但如何压缩视觉数据以同时供机器分析和人类观看仍有待研究。
大多数现有的零样本学习(Zero-Shot Learning,ZSL)方法都存在强偏问题:训练阶段看不见(目标)类的实例在测试时往往被归类为所看到的(源)类之一。因此,在广义ZSL设置中部署后,它们的性能很差。在本文,我们提出了一个简单而有效的方法,称为准完全监督学习(QFSL),来缓解此问题。我们的方法遵循直推式学习的方式,假定标记的源图像和未标记的目标图像都可用于训练。在语义嵌入空间中,被标记的源图像被映射到由源类别指定的若干个嵌入点,并且未标记的目标图像被强制映射到由目标类别指定的其他点。在AwA2,
文章:SLAM and 3D Semantic Reconstruction Based on the Fusion of Lidar and Monocular Vision
来源:专知本文约5000字,建议阅读9分钟最新视频视频标题生成与描述研究综述论文。 视频标题生成与描述是使用自然语言对视频进行总结与重新表达. 由于视频与语言之间存在异构特性, 其数据处理过程较为复杂. 本文主要对基于“编码−解码” 架构的模型做了详细阐述, 以视频特征编码与使用方式为依据, 将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法, 并对各类模型进行了归纳与总结. 最后, 对当前存在的问题及可能趋势进行了总结与展望, 指出需要生成融合情感、逻辑
【导读】这篇论文提出一种将高层次的概念与CNN-RNN成功结合的方法,并且实验表明这种方法在图像语义生成和视觉问答方面都取得了显着的进步。通过设计一个视觉问答模型,将图像内容的内部表示与从知识库中提取
多模态对比表示(multi-modal contrastive representation, MCR)的目标是将不同模态的输入编码到一个语义对齐的共享空间中。
本文介绍的是 IJCAI-2020论文《DAM: Deliberation,Abandon and Memory Networks for Generating Detailed and Non-repetitiveResponses in Visual Dialogue》,该论文由中科院信工所于静老师指导,由来自中科院信工所、北京航空航天大学、阿德莱德大学的作者(蒋萧泽、于静、孙雅静、秦曾昌、朱梓豪、胡玥、吴琦)共同合作完成。
对图像中的视觉内容进行归纳和总结,并使用合适的词汇与合理的语法结构将其重新组织并表达出来,是图像标题生成与描述的主要研究内容。 如图 1 所示,首先对图像中的视觉内容进行解析,将其转换成视觉语义编码,然后根据编码内容进行解码,将其映射到语言空间中,生成相关词汇,并组合成用词准确、结构合理的自然语言。 本节围绕该基本框架,从视觉特征提取、视觉语义选择和模型设计与优化等方面,介绍当前流行的方法和模型架。
机器之心专栏 机器之心编辑部 最近用文本来引导图像编辑取得了非常大的进展以及关注度,特别是基于去噪扩散模型如 StableDiffusion 或者 DALLE 等。但是基于 GAN 的文本 - 图像编辑依旧有一些问题等待解决,例如经典的 StyleCILP 中针对每一个文本必须要训练一个模型,这种单文本对单模型的方式在实际应用中是不方便的。本文我们提出 FFCLIP 并解决了这个问题,针对灵活的不同文本输入,FFCLIP 只需要一个模型就能够对图片进行相应的编辑,无需针对每个文本重新训练模型,并且在多个数据
本文分享 ACL 2021 论文『UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning』,由百度提出统一模态的预训练框架《UNIMO》、用不匹配的图文对也能进行多模态预训练?
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 计算机视觉研究院专栏 作者:Edison_G 来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络,提高了类别嵌入在视觉空间的完备性,对零样本学习中类别之间的知识转移有重要促进作用。 转自《机器之心》 零样本学习旨在模仿人类的推理过程,利用可见类别的知识,对没有训练样本的不可见类别进行识别。类别嵌入(class embeddings)是描述类别语义和视觉特征的向量,能
Disney made the best cake of all time using projection
本文介绍的是 IJCAI-2020论文《Mucko: Multi-LayerCross-Modal Knowledge Reasoning for Fact-based Visual Question Answering》,该论文由中科院信工所于静老师指导,由来自中科院信工所、微软亚洲研究院、阿德莱德大学的作者(朱梓豪,于静,汪瑜静,孙雅静,胡玥,吴琦)合作完成。
来源:机器之心本文约2900字,建议阅读10+分钟VGSE模型能够发掘与人工标注属性互补的视觉特征。 来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络,提高了类别嵌入在视觉空间的完备性,对零样本学习中类别之间的知识转移有重要促进作用。 零样本学习旨在模仿人类的推理过程,利用可见类别的知识,对没有训练样本的不可见类别进行识别。类别嵌入(class embeddings)是描述类别语义和视觉特征的向量,能够实现知识在类别间的转移,因而在零样本学习中发挥着不可替代的作用。 零样本分类图解 如上图所示
机器之心专栏 作者:北京邮电大学、马普所 来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络,提高了类别嵌入在视觉空间的完备性,对零样本学习中类别之间的知识转移有重要促进作用。 零样本学习旨在模仿人类的推理过程,利用可见类别的知识,对没有训练样本的不可见类别进行识别。类别嵌入(class embeddings)是描述类别语义和视觉特征的向量,能够实现知识在类别间的转移,因而在零样本学习中发挥着不可替代的作用。 零样本分类图解 如上图所示,由于属性(attributes)能够被不同类别共享,促进了
语言Transformer的成功主要归功于masked language modeling(MLM) 的预训练任务,其中文本首先被标记为语义上有意义的片段。在这项工作中,作者研究了masked image modeling(MIM) ,并指出了使用语义上有意义的视觉标记器(visual tokenizer) 的优势和挑战。作者提出了一个自监督的框架iBOT ,它可以通过在线标记器(online tokenizer) 执行mask预测。
Kimera是C++实现的一个具有实时度量的语义SLAM系统,使用的传感器有相机与IMU惯导数据来构建环境语义标注的3D网格,Kimera支持ROS运行在CPU上的高效模块化的开源方案。包含了四个模块:
我们已经知道应该如何从不同类型的机器学习方法中学习,如监督学习、对比学习等。因此在本讲座中将尝试回答一个问题,即我们应该如何将模型转换为更通用、更灵活、更实时的模型,换句话说,我们应该如何在基础模型之上构建一个通用的解决方案系统。
文章:Vision-based Large-scale 3D Semantic Mapping for Autonomous
基于大规模图文对的视觉-语言预训练(VLP)已经让许多跨模态的下游任务取得了巨大的性能提升。现有的大多数预训练方法主要采用两步 训练过程,即首先使用预训练的目标检测器提取基于区域的视觉特征,然后将图像表示和文本嵌入串联起来作为Transformer的输入进行训练 。
为解决目前视觉对话系统中视觉语言两个模态之间的多轮指代、推理以及信息对齐等问题,自动化所陈飞龙博士、许家铭副研究员和徐波研究员等人与腾讯一起共建了一种双通道多步推理视觉对话生成模型,使得模型从视觉和语言两个方面丰富问题的语义表示,更好地针对问题生成高质量答复。相关成果被AAAI2020录用。
本文是对中科院自动化所和腾讯微信AI团队共同完成,被 AAAI2020 录用的论文《DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog》进行解读,相关工作已开源。
机器之心专栏 复旦大学数据智能与社会计算实验室 复旦大学数据智能与社会计算实验室(Fudan DISC)推出大规模跨视觉语言模态预训练模型:MVPTR。 本文介绍了 Fudan DISC 实验室提出的一种基于多层次语义对齐的多阶段视觉 - 语言预训练模型 MVPTR,MVPTR 是一个多阶段的视觉 - 语言表征模型和预训练方法,通过显式地学习表示不同层级的,来自图片和文本信息的语义,并且在不同的阶段对齐不同层次的语义,在大规模图片 - 文本对语料库上预训练的 MVPTR 模型在下游视觉 - 语言任务上取得了
文章:SemanticSLAM: Learning based Semantic Map Construction and Robust Camera Localization
本文来自于《The Limits and Potentials of Deep Learning for Robotics》,该论文是从2016年的机器人技术大会(RSS)上的特邀演讲者和 "The Limits and Potentials of Deep Learning for Robotics "研讨会的组织者提供的想法和观点中整理的。
选自 Alexgkendall.com 作者:Alex Kendall 机器之心编译 参与:候韵楚、黄小天 深度学习使计算机视觉得以蜕变。如今,绝大多数问题的最佳解决方案是基于端到端的深度学习模型,尤其是当卷积神经网络倾向于开箱即用后便深受青睐。但这些模型主要为大型黑箱,其透明度很差。 尽管如此,我们仍旧在深度学习领域获得了显著成果,即研究人员能通过一些数据以及使用基本的深度学习 API 所编写的20 余行代码来获得大量容易得到的成果。虽然这些成果很有突破性,但我认为它们往往过于理想化,且缺乏原则性理解
人类视觉神经系统能够高效地感知和理解现实世界中的复杂视觉刺激,这种突出的能力是当下的人工智能系统无法比拟的。通过神经编码和解码模型来研究不同脑区的功能可以使我们更加深入地理解人类视觉感知系统。
机器之心专栏 机器之心编辑部 UNIMO 首次实现了仅用一个预训练模型同时处理多模任务和单模任务,验证了 AI 系统可以像人一样从各种不同模态数据中学习,从而获得更强大且统一的认知能力。 人类大脑能够处理文本、图像、语音等各种模态的信息,并通过模态间的交互增强提升对世界的认知能力。受此启发,百度提出统一模态学习方法,能够同时使用大量文本和图像的单模数据进行学习,并利用图文对的多模数据进行跨模态联想对比,通过预训练获得统一语义表示,从而在多种理解与生成的下游任务上超越 ViLBERT、Oscar 等多模预训
作者丨卫雅珂、刘学旻 视觉和听觉在人类的沟通和场景理解中至关重要。为了模仿人类的感知能力,旨在探索视音模态的视音学习在近些年来已成为一个蓬勃发展的领域。本文是对由中国人民大学高瓴人工智能学院GeWu-Lab联合德克萨斯州大学达拉斯分校以及西北工业大学共同发布的最新视音学习综述《Learning in Audio-visual Context: A Review, Analysis, and New Perspective》的解读。 该综述首先分析了视音模态的认知科学基础,进而对近来的视音学习工作(近三百篇相
[Paper - Automatic Spatially-aware Fashion Concept Discovery - ICCV2017]
人类想生动准确地描绘图像内容,不仅需要敏感捕捉图像中物体,还要洞悉各物体间的联系。目前人工智能已经能够精准识别图像中物体,但探索物体间联系从而对图像进行完整阐述一直是业界的难点。日前京东AI研究院计算机视觉与多媒体实验室在计算机视觉领域顶级会议ECCV 2018上入选的一篇文章,介绍了京东AI研究院在图像描述课题上取得的算法创新与突破,引起业界广泛关注。
本文主要从二维图像及其轮廓的集合中,学习一个自监督的、单视图的三维重建模型,预测目标物体的3D网格形状、纹理和相机位姿。提出的方法不需要3D监督、注释的关键点、物体的多视图或者一个先验的网格模板。关键之处在于,物体可以表示为可形变部分的集合,在同一类别的不同实例中,每个部分在语义上是一致的。
论文题目:Image Captioning with Semantic Attention
标题:AVP-SLAM: Semantic Visual Mapping and Localization for Autonomous Vehicles in the Parking Lot
论文名称: A survey of image semantics-based visual simultaneous localization and mapping Application-oriented solutions to autonomous navigation of mobile robots 作者: Linlin Xia, Jiashuo Cui, Ran Shen, Xun Xu, Yiping Gao and Xinying Li
在大规模基础模型的时代,经过大规模预训练后,对各种下游任务进行最小调整已成为迁移学习的新范式。然而,与自然语言处理领域基础模型的巨大成功不同,大多数视觉模型在各种下游任务中的零样本迁移学习能力尚无法达到可比水平。通过引入语言监督并在网络规模的数据集上进行学习,对比语言图像预训练(CLIP)模型能够将视觉表示泛化到开放词汇推理,并展现出惊人的零样本分类结果,然而,在更复杂的任务,如语义分割方面,这种能力仍然非常有限。
领取专属 10元无门槛券
手把手带您无忧上云