如何让机器人更懂人？

文章来源：企鹅号 - 搞怪要裙子

前言

手术机器人是服务机器人行业里面的明珠，自然语言的理解则是人工智能的明珠。如果再讲到情感计算，多模态的计算，可能就是这颗明珠里面的黑明珠。

张晨开门见山的点出语言理解对于人工智能的重要性。他讲到，竹间智能致力于情感计算和自然语言理解，打造机器人真的读懂人、听懂人和看懂人。他认为，在中文的自然语言理解方面，就是要读懂。看懂，则指的是做图像的技术，竹间智能聚焦于人脸的属性和人脸的情绪表达，做到九种人连情绪的识别。听懂，是从声音的角度，从说话的语音语调知道情绪。

他提出，竹间智能聚焦于情绪、情感的计算，以及通过人机交互的方式，为更多的行业以及C端用户做服务。他认为人工智能领域，也是一个多行业的结合，因此公司里面不光有做算法的人，还有一批语言专家和一批心理学家。“这些人都能够帮助我们从更深层次的角度去理解一句话到底是什么意思。如果你跟一个机器人说你吃了吗？这句话是问他你今天中午饭吃了，还是跟他打招呼，在不同的语境下面有不同的理解，这个就是真的要把机器人读懂，就要更多地理解人的一些心理活动。”张晨这样解释道。

（竹间智能张晨）

讲到竹间智能的对话机器人，他提到，随着windows出现之后，人机交互变得越来越好，越来越多的人会使用电脑。人类有一天应该是解放双手，不是用指头去触摸屏幕，而是用嘴巴告诉电脑，告诉手机，告诉电视等等，甚至在做手术的时候告诉机器人说你帮我往前推进3毫米。对话其实只是一个前端，只是一个开始，对话之后能不能真正理解人的意思是比较难的，要充分做到语意理解。

他讲到傅园慧的案例表明了语言环境的复杂性：她（傅园慧）在接受采访的时候说鬼知道我经历了什么，我感觉我要死了。你如果不看她的表情，如果只听到声音，你会觉得这个人很负面，她根本不开心。可是你一看视频，一看她的表情，你就知道她超级开心。有的时候不管你说什么，可能你的声音和你的表情更能说明你的状态，我们把这些加上之后叫做全模态的交互。机器人真的能做到识别一个人全模态的状况，包括背后深层次的语意理解，就能帮到人更多。

竹间致力于打造的是内脑的对话机器人。他讲到，因为人的情绪情感还是非常丰富的，也很难去界定，于是竹间尝试做了一些分类：通过22种文字情绪，9种表情识别，4种语言情感进行情绪情感区分，其表示该应用目前已经在和科沃斯进行合作，用于综合判断网络评论好坏。

在视觉理解方面，张晨讲一个例子：浙江有一个监狱，他们想对在押犯人做亲情会见，在押犯人可能会跟亲属做一些会见。我想知道他在亲情会见的时候，他的面部表情会不会有一些变化，如果我给他做正面的宣教，他的面部表情会不会有所放松？这些信息能够帮助警察同志去制定好的政策，帮助这些犯人尽快回归到社会。

基于底层技术，他提到目前竹间发展的五大产品系列以及三个平台。他认为人工智能这个技术，目前还是比较初阶段，真正要去赋予到用户真正的使用价值，还要跟一些场景强相关，要有一些场景。

他通过五个场景解释了软件产品的由来：

第一块，VCA，即虚拟客户助手。当企业有大量去面对C端客户的时候，即在银行、电商等有大量业务办理的场景，可以通过机械的方式引导让用户自主完成。

第二个，针对企业内部员工的助手。企业面对很多的工作流程时，把这些都变成底层的技术服务，提供给员工。

第三块，VPA，人工智能助手，例如手机里都有的人工智能，但因为泛娱乐化很少人关注，因此进行一个简单的定制，把这些人工智能助手真的在某些场景运用里面加以运用，例如发红包给谁，饿了么帮我送外卖到哪。

第四块，呼叫中心，通过人工智能做基础的帮助，在公众号等场景处理一些复杂的数据。

第五块，基于多模态，则在教育行业和零售行业落地。

讲到平台层，他提出竹间智能提供了三种不同的平台，可以把我们曾经走过三年四年磨出来的技术模块输出，搭建平台，建模，使用。他提出竹间智能的AIOT平台，能把沉睡的数据提炼出来为企业所用，可以把数据在里面形成具体的应用。

他提到，服务机器人很多都与硬件有关，以电脑为例，电脑人机交互端不断变化，使得使用电脑的人，使用操作系统的人越来越多，从DOS到Windows等等。可以做到很多的人工智能设备，跟一些IOT的智能家居设备进行连接。

在技术层面用多种模态合成自然语言理解，不光光是一问一答式的，还有多轮对话的方式，能够二次确认，能够理解你的一些复杂的语义，还能不断地搜集一些你常规的经验数据，最后形成对你的用户画像，他会非常了解你，熟悉你，知道你只要一抬手就想干什么。

他展示了针对欧时力门店VIP人脸检测：零售店里面，当一个客户来过几次，什么样的客户会选购什么样的产品，销售员心里会非常清楚。但这些数据只能存人脑里面，并不能变成数据存在客户端的数据库里面，不能被反复利用。如果通过人工智能的人脸识别，就可以知道哪些客户会选择什么产品，他们背后有一些用户画像的共性。

他又提到，人工智能里面都会有一个准确率的问题，通过语音转文字还是挺准的，大概在80—90%之间的，可是拿着遥控器和电视对话的时候，会发现电视很多时候不理解意思，比如说电视太吵了，它不知道帮你调高音量，你如果说太亮了，它也不会帮你调亮度。这个里面有意图选择，竹间智能通过把意图的准确率提升到97%，所以会提供更多更广泛的识别。我们把这种功能直接给到长虹，如果你发现客户有一个很奇怪的说法，对应了某一种具体的意图，也可以自己在平台上做定制。

交互是一个非常大的概念，这个交互可以是物理性的交互，也可以是我们说这种软的交互。软的交互，包括语言，包括眼神，包括声音等等，这些可能有很长的路要走。

免责声明

文章来源：中国机器人网

凡资讯来源注明为其他媒体来源的信息，均为转载自其他媒体，并不代表本网赞同其观点，也不代表本网对其真实性负责。您若对该文章内容有任何疑问或质疑，请立即与后台小编联系，平台将迅速给您回应并做处理。凡注明本网原创文章，转载请注明来源。

发表于: 2019-06-012019-06-01 00:01:07
原文链接：https://kuaibao.qq.com/s/20190601A0089000?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

如何让机器人更懂人？

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐