人工智能四大前沿变现机遇

人工智能领域可以被分为一些分支方向它们活视能解决一些常见的但很困难的实际问题,或是需要一些不同的工具或技能。其中比较重要的有机器人学、计算机视觉、语音识别和自然语言处理

机器人学,让机器做人做不到的事情

建造机器来完成物理世界中的事情。如何让一台设备处理不同的形状、尺寸、重量和易碎性的物体,依然是人工智能领域一个前沿的挑战。此处最大的问题是如何适应不断变化或杂乱不堪的环境。在这面,机器人学最重要的成就是无人驾驶汽车。

人工智能技术让机器人能够在人类无法施展拳脚的地方工作,带来了全新的经济机遇。在那些对人类来说太过危险或成本太高的任务中,机器人具有很大的价值。例如,在海底采矿和种植作物、用专门捉昆虫的机械捕食机器人来清除农业害虫,或清理工业事故现场等。

计算机视觉,让计算机具备“感知”能力

计算机视觉主要是计算机具备“看”的能力,让它可以解读视觉图像。计算机视觉领域的研究与符号系统向机器学习的转变同步进行。该领域的早期工作聚焦在打磨算法,这些算法使用视觉图像的专业知识对感兴趣物体的描述来寻找线条和区域等拥有语义意义的元素,接着再把这些元素组合成更大和更通用的物体。例如,一个椅子识别程序可能会搜寻椅子腿、坐垫、靠背等部件。

通常是用一种专门的卷积神经网络CNN,从一个很大的案例库中进行建模。CNN是先在图像中细小而重叠的区域内搜寻模式,然后将它们“学到”的东西传播给邻近的区域,接着逐步传播给图像中更大的区域

该领域带来的希望远不止处理视觉图像而已。它能将输入的代表三维物体表面反射光线的二维平面图像,解读或重构成原始场景的一个模型。例如,可以基于不同角度拍摄的多张照片(立体视觉),也可以是关于光线的几何与物理知识、不同表面的反射度,以及对真实世界物体特性的理解。

我们的眼睛和大多数相机都是对反射光线进行采样,但还有很多各种各样的传感器收集着人眼看不见的关于真实世界的信息。例如一些特殊设备不仅能捕捉代表热量的红外线,还能捕捉如雷达和震动的反射信号。用某些计算机工具将其“可视化”,例如地下油层的位置和形状、脑瘤、混领土大坝受压时形成的裂缝。

计算机视觉第二个主要应用是用于信息本身。数码相机的发展把拍摄和分享照片的成本降低到接近零,很多人连在小键盘上敲出字都不愿意,只是选择发生照片。其结果就是,互联网上流动的视觉信息迅速增加。2018年互联网84%的流量都来自视频。

文本数据能以电子形式来解读,分类和检索,但是图片和视频却不一样。图片和视频如果没有在源头进行标记或者没有经过人类手工分类,是没有办法进行管理的。当谷歌上搜索图片时,搜索的是相应的标签和文本,这就是图片搜索的精确度低于网页搜索。

语音识别,商业化的核心领域

因为口语变化多端,并且音频流中总是夹杂着噪声。将“信号”与“噪声”区分开,并将其誊录成正确的文本,不管对人还是对计算机来说都是一个艰难的任务。改变句尾的声调,甚至可以完全改变整个句子表达意思,还有一个大问题是如何区分同音异义词。还有很多因素让问题进一步复杂化,比如说话者的身份、谈话涉及的领域和音调变化等。

语音是一种旨在交流想法的人造物,它以词语的特定序列来进行表达,并用人的声音进行编码。它会用一些附加信息来进行增强,例如声调、语速、口音、词汇的等,这些信息可以传达说话的情绪状态、它们与听者的地位关系,或他们的“团体从属”等特性

要将语音错误率降低,需要更强大的计算机,获取大量训练数据的能力和机器学习技术三者再一次结合起来解决这个问题。

自然语言处理,语言进行的新路径

人们设计计算机语言只有一个目的:让人们更容易以一种精确而明晰的方式对计算机进行编程。处理计算机语言的程序成为编译器,这是一种形式化的方法,用来将更抽象但严格的计算过程说明转换成一种可以在特定计算设备上运行的形式。

机器学习型的新方法则需要大量称为“语科库(corpora)的文本。随着计算机可以读的书面文本越来越多,语科库变得越来越大,也越来越容易收集。

光是分析是没有用的,除非用它来做一些事情,毕竟句法树形图本身只是一些附上了词语的线条图,除非你把它们用于某些具体的目的,例如移动从句。所以,该领域的工作主要聚焦在一些具有重要实用价值的问题上,例如在不同语言间翻译文本、为文件生成摘要或回答问题等,通常是基于由该领域的事实组成的数据库。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181102G0DEFS00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券