阿里iDST首席科学家“解密”：AI如何成就新零售最终幻想

DT数据侠

发布于 2018-08-08 16:28:48

3600

发布于 2018-08-08 16:28:48

文章被收录于专栏：DT数据侠

人工智能+新零售=？阿里巴巴iDST（数据科学与技术研究院）首席科学家兼副院长、原亚马逊无人零售项目Amazon Go的重要策划者任小枫，结合计算机识别技术的进展，讲述了他在新零售的各种应用场景中，对增强现实、智慧门店、机器人和可穿戴设备这几大方向的展望，本文为他在云栖大会的演讲实录。

作为一个技术人员，我平时大多数时间是在思考怎么样解决实际的技术问题。解决问题也并不是工作的全部，有的时候确实也会想一下未来会是什么样子的，所以很高兴有这个机会跟大家分享一下。

不过因为其实我在美国工作生活了很长时间，所以新零售这件事情很多时候对我来说也是一个谜，前面听了曾教授也好，还有其它各位讲的，我也学到很多。

怎么样解开这个谜呢？

我去看了一下前段时间阿里研究院关于新零售的报告，对新零售有一个非常全面的总结，总结是：新零售是以消费者体验为中心的，数据驱动的泛零售的形态。

虽然是短短的一句话，其实里面有很多的信息。比较难让我们控制想像空间的是，能够应用的场景是非常多，比方说批发零售、物流、娱乐、餐饮等等。

但是我们看到描述中间有几个关健词，一个是体验、一个数据、一个泛零售。

体验来说我相信很多在座的比我会有更多的想法和经验去想怎么样提供更好的用户体验，对我来说，因为我做的是人工智能，特别是计算机视觉，想的是怎么样能够得到有用的数据。

从数据的角度来说，应用的场景很多，百货公司、购物中心，便利店，甚至是直播，视频、电子商务。

各个场景来看，买东西的本质，无非就是一个是人，一个是事物（商品），我们做很多的事情就是希望能够理解人，能够理解物，能够把人跟物联系起来，让用户更好的和更快的找到他满意的商品，也能够把商品能够更快更好的送到用户的手里。

从信息的角度来说，要得到关于人的信息或者关于物的信息，特别在很多线下的场景当中计算机视觉或者用相机是非常好的方法，也并不是因为我是做这个方向的，本身确实有很多有优势的地方。

比方说视觉是通用的方法，在一个相机在里面可以干很多事情，可以识别人、物、动作，也是非常高信息量的感知的方法，像现在比如1080P的视频非常普及，1080P的象素下面，不用靠的很近就能够感知很多东西。

这是一种被动的方法，很多情况下原因是因为人是用眼睛感知的，所以这个世界实际上是为了我们的眼睛而设计的，从红绿灯也好，标志牌也好，很多商品的包装，很多时候都是为了适应人眼，计算机视觉这个时候是利用了这个世界设计的规律，然后试图用同样的途径来得到更多的信息。

当然，视觉其实有很多问题，比如必须要有光照，比较好的光照才能够得到比较好的信息，但这个问题也不是太大，因为人眼睛也需要很好的光照才能看到。

遮挡也是比较大的问题，相机被挡住，后面的东西确实没法看到。这个其实也是跟高信息量相关的，因为我们用的是可见光，波长很短，需要高信息量的时候，没办法绕过前面的遮挡物。

计算机视觉应用最大的问题是它的精度，很多时候精度不够，但是最近几年有很大的改变，很大程度上来说精度并不是特别大的问题了。

下面，介绍一下现在的计算机领域所处的状态，也让大家有个更好的感觉，看看我们技术已经进步到什么地步。

从物来说，大家知道有一个非常有影响力的竞赛是物体分类的竞赛，一千个物体，所要做的就是给每一张图打上一个标签知道它是什么。下面是过去八年当中ILSVRC上面的进展，Y轴描述是错误率，还是非常难的，最近这八年进步非常快的。

2012年的时候。深度学习开始在这个问题当中得到应用，过去的六年当中精度一直在提高。有人测过人在这个问题的错误率是5%，并不是计算机超过人，但计算机某些情况下达到了人的精度。

光是一张图一个物体并不是视觉唯一的问题，很多情况下需要处理一个复杂的场景，所以ILSVRC也有物体检测的竞赛，给你复杂的场景，需要找到各种各样的物体，这个问题这几年的进展也是很快的，当然深度学习是一个原因，当然数据其它的都是原因。

上面这个图稍微难看明白一点，因为检测的问题来说，要做到正确的检测需要有正确的标签和正确的位置，检测问题还有一个预值的问题，可以把预值调高，返回的问题少会错失一些，调低返回的更多，但是会有一些误解。

总的来说，现在的MAP平均精度达到0.75，这个确实跟人还有一定的距离。

但是大家看一下例子，像下面这个场景当中有很多东西，有人，有狗，有雨伞，后面还有一些比较小的东西，比如椅子，很多情况下都是能够检测到的。

大家再看一下这是一个语义分割的例子，很多情况并不是只是找边框，这个问题在每个象素点上我们都去标注这个到底是什么。这是自动驾驶的例子，可以标树，算法可以标树、车、行人，还有各种各样的在场景当中能够碰到的物体，这个也是一个已经能够达到不错的精度，现在用相机做无人车，也是非常有意思的方向。

这是一个多相机的跟踪的例子，比方用八个相机，人在走动，很多情况下我们可以比较精准的跟踪这些人，在每时每刻知道这个人的地方，多相机的跟踪可以做很多事，首先可以得到人的身份，可以知道这个人是谁，还有一个就是可以比较精准的得到这个人的位置。

大家知道特别是室内定位，其实有很多方法，WiFi、蓝牙和超声波，很多情况下他们都有难度，就是精准定位，视觉能够给我们一个至少是厘米级的定位的精度，很多情况下也是很有用的。

不是说只是去检测这个人在哪里，在很多情况下。我想给大家看的是其实我们在很多情况下能够做到人的姿态的估计——不光知道人在哪，也能知道眼睛、耳朵、肩膀、手臂。

即使比较复杂的场景下，有很多人的情况，有些很大的姿态变化的情况下一样也能够去得到这些信息。人的姿态其实是一个对人的理解的一个基础，就是说有很多情况下知道人的动作、姿态，就会有一个很好的基础去理解人的行为。

上面这个图片，就是其实是一个基于姿态的动作识别。上面那个蓝的是我们想得到的东西，绿的是算法的估计。这个相对来说是一个比较简单的问题，这个视频相对来说比较简单，想给大家看一下，有了姿态之后，还可以在姿态的基础上做一些动作的识别，物体的识别，很多情况下能够识别人的动作。

如果我们往前展望一下，就是说无论是一个室外的场景也好或者室内的场景也好，现在计算机视觉真的能够做很多东西。

稍微夸张一下的说，其实很多情况下，我们看得见的事情，人能做的事情确实计算机现在都能做。这在几年前绝对不敢说这句话，但是现在算法的发展也好，其它能力的提高，很多情况已经很接近了。

当然从另一个方面来说，如果相机看不见的也没办法。这个也不是纯开玩笑，因为从解决实际问题的角度出发，相机的布置其实是一个很重要的问题，你希望能够有一个很好的布置，能够在最大程度上得到你想得到的信息。

除了相机之外还有很多别的问题需要考虑，比方说数据、计算量、成本，这些跟算法结合在一起。我对视觉还是有非常有信心，觉得有很多情况下很多事情都能做的。

回到新零售的讨论，如果说这是新零售是一个数据驱动，其实也可以做小小的修改，可以认为是用信息驱动的形态。

怎么说呢？有很多时候数据并不是现成的，有很多时候数据需要我们花力气得到的，特别线下的场景当中，或者线上也好，很多情况用视觉或者其它得到对我们有用的信息。

说完了视觉，前段时间的进展或者技术，我也想跟大家说一下我自己非常感兴趣的几个应用的方向，在这么多的应用场景当中，我想提几个自己比较感兴趣的：

增强现实、智慧门店、机器人、可穿戴万能助手。

想给大家看一下几个例子，看看现在技术大概发展到什么程度。

增强现实是现实世界跟虚拟世界的叠加。就像这个图上显示的，我们买家具，可以拿PAD看家里，可以把家具放那边。

这里面有几个比较关键的问题，比如三维定位、三维建模，渲染，建模渲染是比较简单的问题，定位现在比较成熟。大家知道前几个月苹果公司发布了他们的能够在苹果手机上面做到相当精准的实时的三维的定位，它的计算量都达到了使用的程度。

三维定位解决之后，其实增强现实能够有很多应用的，给大家稍微看一下几个例子。

这是一个例子是就是说是相当于帮助你去找东西，其实对我来说是一个很重要的事情，经常我太太让我到店里买东西，不知道在哪，不愿意问人，要花很长时间。

如果有了定位的技术，然后如果对这个店里面的商品的位置有一个比较精确的地图，就可以想像可以用增强现实去做一些导引方面的东西。

回到刚才说的虚拟购物，也是大家经常说的东西，如果有了增强现实，可以在网上找到这些家具可以放到家里可以看大小，可以看搭配，很多情况下还可以看光影的效果等等。这个在现在也是一个可比较成熟的、很多人可能有很多人在做的技术，很快可以用到。

下一个想跟大家稍微讨论一下的是智能门店。

大家知道我以前是在亚马逊的，我很幸运在Amazon GO项目开始的时候加入了进去，我们花了四年时间做了这么一个店，自己还是非常兴奋跟自豪的。

我们解决的问题是在一个相对通用的场景下解决支付的问题，做到进去之后拿了直接走，不需要排队结帐环节。

做了四年之后，现在每次买东西排队的时候都想什么时候，希望很快，能够就是说在所有店当中能够把支付环节做好，省掉排队跟结帐。虽然只是支付一个环节，做到高精度有很多问题要解决，解决人的问题、商品的问题、动作方面的问题，知道人拿的什么商品。

很多情况下可以想像成是一个相对通用的一个线下的智能系统，如果有一个相机网络，可以做很多事情，可以用来跟踪人，可以用来分析人流，可以看停留的时间，看有人有没有拿东西，看了多久，有没有放回去，可以用相机监控货架。

如果跟身份结合，或者用人脸或者其它的方式，可以做到很多个性化的体验，能够让你在每时每刻在店里面知道你是谁，提供个性化的服务。

支付肯定是一个方向，有很多情况下我们会思考很多事情在线上比较容易做的，像停留时间、个性化。现在到了一个时候其实我们在线下很多时候也能够做类似的东西。

其实有些东西在线上不是那么容易做的，比方说我们可以做表情识别，这是一个例子，就是我们可以通过对人脸的分析知道它是高兴还是不高兴，是生气了呢还是无聊呢，其实很多时候这件事情都是可以做的。那觉得可能就是说线下跟线上相比，有一些时候说不定真的有一些优势。

回到这个线下系统，在不远的将来可以看到像这样通用的线下的智能系统可以做很多事情，但在一家店铺去做是另一回事。比如在银泰场景下，里面有各种各样的店铺，有比较大的空间，在这里面做，难度会再上一个大台阶。

如果在一个比较拥挤的情况下，很多时候也是需要在算法上，在数据上，或者其它方面花很大的力气，但是在很多时候，应该是在目前来说应该是已经可见的事，能够看得到的事情。

第三个提一下机器人，前面提的很多情况下只是感知，只知道那个人在哪里，我们可以做一些交互，可以是语音的交互，可以是显示屏或者视觉上面的交互。

从物理的角度来说，我对机器人还是非常感兴趣的，机器人现在发展也是非常的快，大家其实已经看到了很多的例子。

这个上面是一个小的送货的一个车，这是是一个伦敦的案例。

这个可以把它跟无人车对比，我没有提无人车，但是送货机器人技术跟无人车比较相像的，我们也需要对环境有一个非常精准的标签，知道路在哪，哪上台阶下台阶，知道人在什么地方，不能碰到人，很多问题是相通的，但相对来说简单一些因为风险没有那么大。

另外一个角度来说，其实也有很大难度，因为对于送货机器人来说成本应该是比较大的问题，我们也必须选择一些比较简单的硬件方案跟算法方面的方案。

大家也知道，无人机，现在做的人也很多，亚马逊在做，其它也有很多公司在做，这个具体的例子是瑞士邮局合作的，是在两个医院之间送一些东西，两个医院合作可以做到比较高效的合作。

当然无人机送货只是一个方面，给大家看一下，现在在控制方面已经发展到了非常好的，成熟的阶段。

这是一个波士顿动力的例子，他们做了很长时间机器人，他们在控制方面很出色。下面这个小机器人，可以做很多事情，可以在家里走，这个是显示一下它能够做非常复杂的动作。

它有腿，它也有手，可以抓厨房里面的一个杯子，当然这只是一个例子，真的要，其实很多人想做一个机器人，自动的帮你洗碗洗盘子，或者干其它家务，那个还有一定的距离，但是这个其实例子也说明了我们这个可能离将来并不是那么远。

所以，机器人在将来，应该是一个非常有意思的方向，物流也好，门店也好，相信在将来肯定会看到更多机器人的应用。

最后是万能助手，主要指可穿戴设备。

下面这是一个今年刚出的电影，叫做《The Circle》，这是我们讲的是长时间来想拥有的比较好的可穿戴的设备，因为是个人的视角，跟门店不同，但可以记录生活，识别环境，识别其它的人，也可以用来识别自己的动作状态，可以作为一个助手跟你对话，给你提供信息，有很多事情可以做的。

Snap Sperctacles前段时间出了一个比较好的眼镜，可以比较好的记录生活状态。

谷歌其实好几年前，就做谷歌眼镜，后来没有做成功，后来出了企业版，还比较有意思的，可以帮工作人员在制造或者物流或者其它情况当中做很多事情，可以帮你识别，可以帮你扫码。

还有一个例子，他们当时是想说你有一个比较复杂的工作要接线，可以告诉你线头怎么接，干什么事情，这样的设备在以后对大家是很有用的东西。

前面说的还是只是一些对环境的检测，就是其实一个可穿戴的相机，对于自己，对于用户自己也能够做很多事情。

上面这是一个大概七八年前，我跟人合作，这是当时我们搜集的。大家可以看到用这个相机检测这个人干什么，他是在开盒子还是关盒子，还是搅拌，拿的是什么东西，拿的是，当然刚才没有测准，倒水什么的，动作的识别是比较难的问题，但是我觉得以后也是能够做好的第一人称视角，这样的可穿戴相机相对环境来说也有很多的优势。

下面这个是我很喜欢的一个日本艺术家做的东西，他想像的未来，未来当中就是像我们刚才说的可穿戴式的相机，在未来的时候可以对我们的环境，对我们的状态有一个非常精准的了解。

他做的事情，其实是能够把识别的东西画到上面，未来并不见得真的是画上去，但是确实是能够在购物也好，或者平时生活也好，就能够识别我们生活中很多的状态。

大家都见过这个曲线，这是Hype Cycle，就是每个技术，新产品，都是这样的阶段。

开始大家非常兴奋，一拥而上，很快达到顶点，下面处理实际的问题，再往下走，走到谷底的现实问题出来，大家知道应该解决哪些问题，逐渐往上走。

刚才提到几个方向，增强现实已经在这个地方了，下面会看到比较多的应用。智能门店可能还是处在山顶附近，下面应该有很多东西要走。

现在机器人或者可穿戴设备还会在更加遥远的将来，想一下五年以后，十年以后，这些也都是非常让人感到激动的方向。

刚才提到，很多应用当中，视觉是能够起到非常关键的作用，能够得到很多信息，因为它是通用的方法，能够得到人物动作，很多东西能做的。

当然我们需要去得到相关的数据，很多时候很多算法需要融合，需要跟其它的传感器融合，很多时候也不光是感知的问题，我们需要去跟机器人或者其它交汇的方法融合，计算角度来说不见得都在云上或者端上做，云跟端也要融合。

除了这几个问题之外，因为这只是我本人比较感兴趣的方向，特别因为我做计算机视觉，还有很多大家有的时候会提到的方向，简单的手势识别、商品搜索、虚拟现实，其实在新制造上面我自己也觉得人工智能，计算机视觉有很多可能性的应用。

我们经常说，现在是一个技术发展非常快的时候，商业也是发展非常快的时候，我也是非常期待能够成为这个当中的一部分，能够跟大家一起努力，能够建设一个更好的未来。

注：以上内容根据任小枫在云栖大会上的演讲实录整理，未经本人审阅。文中图片均来其现场PPT，后台回复“AI新零售”可获取完整版。本文仅为作者观点，不代表DT财经立场。

编辑 | 赵楠：zhaonan@dtcj.com

▍数据侠门派

本文数据侠为阿里巴巴iDST（数据科学与技术研究院）首席科学家兼副院长任小枫，原亚马逊最高级别的华人科学家、无人零售店项目Amazon Go重要策划者。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-10-25，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能

机器人

本文分享自 DT数据侠微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

人工智能

机器人

登录后参与评论

0 条评论

热度

阿里iDST首席科学家“解密”：AI如何成就新零售最终幻想

阿里iDST首席科学家“解密”：AI如何成就新零售最终幻想

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐