NeurIPS 2018首日：阿里霸气演示全中文Demo，谷歌发布“找新娘”图片识别竞赛

大数据文摘

发布于 2018-12-21 10:58:37

7040

发布于 2018-12-21 10:58:37

文章被收录于专栏：大数据文摘

大数据文摘出品

作者：魏子敏

几经换名风波，NeurIPS——年度最大的人工智能峰会，将在本周于蒙特利尔启动。

两年前的2016年，依然被称为NIPS大会的该活动有5,000名注册参与者。去年，参会者人数达到8,000。到了今年，首批2,000张门票在放出12分钟内即售罄。

今年的大会时间是12月2日~8日，尽管主论坛是在4号才正式开幕，在这两天的工作坊（workshop）和展会（expo）预热中，已经有一些精彩的内容了。

阿里巴巴霸气演示全中文demo

当地时间2号上午，在NeurIPS大会第一日，阿里巴巴iDST(数据科学与技术研究院)发布了其在语音识别领域的新进展，并且在演示开始前霸气表示：“我们所有演示demo都是中文的，不懂中文的听众估计没有办法感受到我们的创新点了。”成为今天的大会热议话题之一。

相关twitter热议阿里巴巴中文demo演示话题

阿里巴巴iDST研究院负责人金榕作为演讲人进行了本次演示，主要展示了如何在嘈杂的环境中进行语音识别技术，例如拥挤的地铁系统或拥挤的会议中心。阿里巴巴的解决方案是部分硬件+部分软件：远场麦克风阵列和复杂的深度学习算法，可以隔离人群中的声音，大大降低错误率。

与单独使用麦克风阵列的“最佳”语音识别技术84％的准确度相比，阿里巴巴声称其模型的准确度在94％到95％之间，即使使用重音扬声器也可以达到这一准确度。

这一技术日前已经被部署为上海的基于语音的地铁票务系统的一部分，阿里巴巴表示，正在努力将其带到其他城市。

在今天的其中一场demo演示中，一位客户向阿里巴巴的回答机器人戴小米询问了特定蓝牙音箱的促销活动，比如他们购买时会收到什么样的免费礼品，以及如何将礼品送到他们的收货地址。阿里称，今年晚些时候推出的未来版本将为优先案例添加情绪分析和自动警报。另外一个demo演示了聊天机器人的一个人形化身，其眼睛、嘴唇和头部动作和声音都与对话颇为协调。

两次demo演示的主语言都为中文。

谷歌联合NeurIPS发布“找新娘图片识别竞赛”

另一个今天大会的热议内容是谷歌，其发布了一场旨在提升图片识别包容度的“找新娘图像竞赛”。

偏见（bias）一直是人工智能（AI）中一个公认的问题：在不具代表性的数据集上训练的模型往往不是公正的。要解决这个问题比你想象的要困难得多，特别是在图像分类任务中涉及社会问题的时候，例如种族歧视。

在近期一次测试中我们可以看到，Open Images数据集上训练的分类器标记的婚礼照片中，只将西方传统婚礼照片识别为“婚礼”、“仪式”，而对于东方或者其他族裔的传统婚礼照片，识别结果只是“人”。

由在Open Images数据集上训练的分类器标记的婚礼照片。图片来源：Google AI

为了解决这个问题，谷歌于9月推出了“包容性图像竞赛”，该竞赛挑战团队使用Open Images（一个公开提供的数据集，里面有北美和欧洲的900张标记图像）来训练AI系统。目前在Google的数据科学和机器学习社区门户网站Kaggle上可以找到这一数据集。

包容性图像竞赛的目标是激励参赛者开发图像分类器。为了编译可以评估提交的模型的多样化数据集，Google AI使用了一个应用程序。可以使用户在拍摄图片的时候，自动生成图片标签。然后将带标签的图片放入图像分类器。最后由人类团队验证（验证步骤是确保图像的标记是正确的）

本次竞赛由谷歌与NeurIPS会议合作举办，据统计，竞赛目前收到了来自100多名参与者的结果提交。谷歌大脑研究员Pallavi Baljekar在周日（12月2日）的一次会议上表示，第一年的比赛获胜者能够向更具包容性的系统迈出一小步。但前五种方法中只有一种成功地认出了印度新娘。很明显，还需要做更多的工作。

竞赛有两个阶段组成，第一阶段有400个团队参与，Google AI发布了不同的属性的32,000张图片，包括地理位置，标签分类等等。在第二阶段，Google从第一阶段和训练数据集中发布了100,000张具有不同标签和地理分布的图像。

来自挑战数据集的标记图像的示例图片来源：Google AI

前三个团队综合使用了网络和数据增强技术，他们设计的AI系统在第一阶段和第二阶段都保持相对较高的准确性。

Baljekar说：“即使使用小型，多样化的数据集，也可以提高无标签目标分类的性能。”

谷歌人工智能团队称，12月7日，在此竞赛的基础上，将发布包含500,000张图片的数据集。

还有什么值得期待？

本次大会还将继续进行一周，今年的大会有哪些值得期待的内容呢？文摘菌也梳理了以下几个值得关注的点。

微软将进行一场关于智能语音交互机器人的发布，机器人名为Ruuh，是一个21岁的女性聊天机器人。具有自动纠正错别字的功能以及快速回复和延迟回复功能。它还能够基于文化的多样性与用户进行交流。（到目前为止，它已经进行过超过4千万次对话，并在Facebook上获得了100,000名粉丝。）

小米研究人员也会在会议展示Poster，内容是描述深层对抗算法，该算法可以学习本地相机曝光。

马克斯普朗克信息学研究所（Max Planck Institute）的科学家将详细介绍他们的“对抗性场景编辑”的工作，这是一种学习如何从图像中找到和移除物体的模型。

另一个值得一看的内容是普林斯顿大学教授Edward Felten关于机器学习和公共政策的讨论，比如政策制定者如何在人工智能和机器学习时代看待新技术。以及为什么机器学习研究人员参与到政府政策制定过程中去会对新技术的发展有促进作用。

最后，Deepmind的报告也值得期待，他们将展示下边视频中的新技术?