2015年11月8日,据国外知名科技网站eWeek发文报道称微软公司的研究人员正在开发一种系统来模拟人类通过视觉系统获取外界信息的能力。
一般情况下,当给人们展示一张照片,并询问照片中的某样东西的时候,人们通常会通过视觉系统从照片中获取很多细节信息,然后会加工这些细节信息并输出很多语言来回答所问的问题。目前,微软的一个研究小组与来自卡内基梅隆大学的同行们设计出了一个系统来模拟同样的过程。这套系统利用计算机视觉,深度学习以及自然语言处理等技术来分析图片,并像人类一样回答所提的问题。同时,这群研究者们也设计出了一种模型,可以“将多步推理应用到回答图片相关的问题中”。
这套系统像人脑和眼睛一样会“看”一个场景中的动态(如果有的话),并找出其中多个可视化物体之间的关系。虽然这个过程对人类来说很简单,但是对计算机来说要学习人类语言并在图片中找到答案却并不容易;要做到这一点,需要用到深度神经网络系统。目前,研究人员们正在进行相关工作以使该套系统具有集中注意力,聚集视觉线索并逐步推导问题答案及解决问题的能力。
微软希望最终能设计出可以预知人们需求并能进行实时推荐的系统。据该公司介绍,能开发出基于视觉信息处理问题的系统是研发人工智能工具的关键。例如,在自行车上装一个摄像机不停拍照并应用该技术进行处理就可以保障骑行安全。