深度 | 微软如何通过人工智能将你的手机变成植物百科全书

AI科技评论

发布于 2018-03-07 14:46:40

1.1K0

发布于 2018-03-07 14:46:40

文章被收录于专栏：AI科技评论

你是否遇到过这种情况？——外出与小孩散步，TA发现一朵很漂亮的花，跑过来问你是什么，但是你突然愣住了—因为你并不知道它是什么花。

目前世界上至少存在250000种花，即便是经验丰富的植物学者也很难全部认识它们。如果现在告诉你以后不用尴尬对小孩承认你并不知道它是什么花，不久之后你就能在无论什么时候都能马上认出任何一种花卉或者任何植物的品种，会不会很期待？

鉴于目前图像识别的强大能力以及使用智能手机随手拍照的便利，普通人通过使用工具也能轻松的识别各种花卉。这个工具叫做智能花卉识别系统（Smart Flower Recognition System），说起来这个系统也是在微软研究院学者与中国科学院植物研究所（Institute of Botany, Chinese Academy of Sciences，IBCAS）偶然促成的。

微软亚洲研究院常务副院长芮勇在一次研讨会上介绍了微软的图像识别技术，在场的中国科学院植物研究所的植物学家大为高兴，因为之前他们付出了大量努力来收集区域花卉分布数据，但效果并不好。植物学家们马上意识到微软亚洲研究院（MSRA）的图像识别技术在这方面拥有巨大的潜力，同时芮勇也发现他也找到用来提升图像识别在解决真实问题方面的最佳试验工具。

这项合作帮助中国科学院植物研究所加速累积了260万的图像数据，鉴于全世界任何人都能将任意花卉图片上传到这个数据库中，且没有人能对这个上传进行监督分类，微软亚洲研究院团队必须创造一个算法来过滤掉“不合格”的图片。但这还只是研究员Jianlong Fu和他的团队建立这个能够在许多不同种类的花卉中识别微小差异的工具中所面临的第一个问题。

为了实现这个目标他们训练了超过20层的卷积神经网络，用来识别使用了一系列可以学习的过滤器的图像。概括来说，它的工作方式是这样的：

在向前传导的过程中，每个过滤器对于输入容量的宽度和高度来说都是卷曲的，且在过滤器和输入中间计算点积。对于过滤器来说这样产生了一个二维的激活图，结果是神经网络学会了在输入区给定空间位置激活每一种特定特性种类的过滤器。

在输入80万张图片到Caffe深度学习框架中后，微软亚洲研究院（MSRA）的研究人员逐渐让机器实现了在图片识别上超过90%的的准确率，这个令人震惊的结果远远超过人类的识别正确率。

Caffe框架简介：

Caffe由加州大学伯克利的PHD贾扬清开发，全称Convolutional Architecture for Fast Feature Embedding，是一个清晰而高效的开源深度学习框架，目前由伯克利视觉学中心（Berkeley Vision and Learning Center，BVLC）进行维护。贾扬清曾就职于MSRA、NEC、Google Brain，他也是TensorFlow的作者之一，目前任职于Facebook FAIR实验室。

同时这个计划也大大帮助了中科院的植物学家们接近他们的目标，中科院植物所的Zheping Xu说到这个花卉识别系统不仅让业内专家有效地掌握中国植物分布的情况，还帮助对花卉非常有兴趣的普通人学到更多的知识。

一张图片经过神经网络层层分析之后，机器学习能够识别出其为“雏菊”。

从目前公布的结果来看，智能花卉识别系统（Smart Flower Recognition System）的识别准确率还是非常不错的。据微软公布的消息，不久之后开发者将基于这个花卉识别系统开服出相关的应用，植物学家们能更加深入他们的研究，家长们在面临孩子类似的问题前能不再尴尬，与此同时普通人也能更深入得欣赏花卉的美。

听起来似乎很不错，但是这个智能花卉识别系统（Smart Flower Recognition System）不免让人想起之前微软推出后火遍全球的how-old.net（测测你的年龄）。

How-old.net是微软在Azure上用新发布的人脸识别APIs为2015年微软开发者大会的展示搭建的，借助人脸识别API这个网站可以分析用户上传的照片中人物的性别和年龄。How-old.net它使用了包括机器学习在内的各种最新技术，具体实现过程如下：

检测：检测图片中人脸的位置图像对准：确定一些关键的点的位置，比如眉毛、睛、子、角等，确定这些点之后可以确定人脸区域。特征提取：有了图像区域之后，开始提取形状、纹理、几何信息是比较关键的特征。训练：有了大量特征数据以及对应的年龄数据，建立一个模型开始训练。估计年龄：新来一张图片，获取特征，根据训练获取的训练参数，估计年龄。

How-old.net主要是靠三个技术来完成的，它们分别是人脸检测、性别分类和年龄检测。其中人脸检测是其他两个技术的基础，而年龄检测和性别检测，它们只是在机器学习的过程中解决了分类的问题。这个涉及到人脸特征的画像、收集可学习的数据，建立一个分类模型以及模型优化。How-old.net的人脸定位功能及性别识别功能大致准确，然而年龄预测结果并不是每次都准确，如下图中加拿大流行歌手Justin Bieber的实际年龄只有22岁（和选取的图片也有部分关系）。

林志颖与郭德纲同龄，吴奇隆比他俩都大，但是测出来的结果却是

使用机器学习的How-old.net虽然大部分测试结果都是准确的，但是也存在各种识别出错的情况（也是How-old.net爆红的因素之一）。号称能达到90%的的准确率，同样使用机器学习的智能花卉识别系统（Smart Flower Recognition System）是否会出现类似的错误，这也是不由得令人好奇。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-07-26，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能