前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >即将不再只是图像的CVer,计算机视觉要变天

即将不再只是图像的CVer,计算机视觉要变天

作者头像
OpenCV学堂
发布2019-10-25 03:02:20
5730
发布2019-10-25 03:02:20
举报

来源:公众号 小白CV 授权转载

计算机视觉CV发展了一定阶段,尤其是在机器学习、深度学习在计算机视觉领域的广泛应用,使得图像无论是在传统的工业领域,还是自动驾驶、AI医疗影像等新兴领域都备受瞩目,取得成果突出。 但是,要想在该领域取得更加长足的发展,时代迫使我们进入了下一个阶段,也就是多种信息的融合阶段,从单一的图像信号的连接,到声音、触觉、语义的融合。此时出了一个新名词,就是“多模态”。

首先,什么叫做模态(Modality)呢?

每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉,听觉,视觉,嗅觉;信息的媒介,有语音、视频、文字等;多种多样的传感器,如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

同时,模态也可以有非常广泛的定义,比如我们可以把两种不同的语言当做是两种模态,甚至在两种不同情况下采集到的数据集,亦可认为是两种模态。

因此,多模态机器学习,英文全称 MultiModal Machine Learning (MMML),旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

多模态学习从1970年代起步,经历了几个发展阶段,在2010后全面步入Deep Learning阶段。

人其实是一个多模态学习的总和,所以也有”砖家“说了,多模态学习才是真正的人工智能发展方向。

本文将针对多模态学习在深度学习发面的研究方向和应用做相关介绍,主要参考了来自ACL 2017的《Tutorial on Multimodal Machine Learning》。

PDF原地址:https://www.cs.cmu.edu/~morency/MMML-Tutorial-ACL2017.pdf

如果对文档的获取是方便快捷的,建议直接下载下来查看,这里也将PPT版本以分页的形式贴出了完整版本,供阅读。一文让你对多模态是个什么做一次深入的了解,在之后的文章中,也将对多模态的使用,不同模态的融合做一些自己的动手实践过程,小白与你一起进步。

(温馨提示:篇幅较长,建议抽空静心阅读+理解)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-10-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV学堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档