中国人在人工智能领域很牛,究竟有多牛?

这两天,自媒体没少炒作这个报告;我自己呢,倒是特别地对这个报告中的两张趋势图感兴趣。报告中说,从2013年到2015年,SCI收录的论文里,提到“深度学习”的文章增长了约六倍,同时强调,“按文章数计算,美国已不再是世界第一了。”

美国不是世界第一?谁是世界第一呢?来看报告中的两张趋势图:

上图是每年SCI收录的文章里,提到“深度学习”或“深度神经网络”的文章数量变化趋势,同时按国家做了区分。数据本身是从Web of Science核心数据库里查询得到的。

第二张图和第一张图其他条件一样,只是增加了一个“文章必须至少被引用一次”的附加条件。也就是说,第二张图统计的文章数,是被引用过的“有效文章数”,相对来说更合理一些。 两张图里,中国都在2014年和2015年超过了美国(以及其他所有第二梯队的国家),居于领跑者的位置。

问题来了,在AI研究领域,中国人真有这么强吗? 从这些年的直觉看,中国人/华人在人工智能领域里的大牛比比皆是,吴恩达、孙剑、杨强、黄广斌、马毅、张大鹏 ……随口可以说出一大串,我自己在Google的研究团队,微软研究院等地亲眼看到的,也到处是中国人、华人的面孔。但这只是直观感受。整体来看,中国人/华人所做的科研贡献到底有多重要,对人工智能的推动作用到底有多大?白宫报告里的统计是不是科学、合理? 其实,对美国国家战略规划里的统计,我自己是有几个疑问的,主要包括: 直接搜索关键字“深度学习”、“深度神经网络”,真的能涵盖这些年人工智能领域的所有科学研究进展?像机器人、智能控制、机器视觉、无人驾驶等领域里,没有提及深度学习的文章眼见还有不少。严格按关键词匹配会漏掉多少相关文章?是否影响统计结果? “文章至少被引用一次”,比较科学,但好像还远远不够。这种统计,真的不需要考虑SCI的影响因子吗?不考虑的话,会混进多少较差期刊上发表的比较水的论文?这些数据会不会被国内研究机构靠SCI引用数来评职称的风气污染? 在全球化时代,按国家统计,会不会有明显偏差?白宫报告没有提到被统计的文章是如何归入不同国家的。如果按作者发表文章时的所在机构,那大量在国外机构访问的中国学者会不会被算成外国人?中国人和外国人合写的文章该如何统计?如果按期刊所属国家和地区,那不同国家间的期刊水平(影响因子)差异是不是会让统计结果带有偏见? 基于此,我也想自己去做个统计。 统计前,给自己设了几条原则: 从期刊的影响因子出发,只统计影响因子高的顶尖期刊。 从Web of Science主题词出发,涵盖人工智能相关的所有科研领域,而不仅是深度学习方面的文章。 关注对象是华人,而不是用国家分类的办法去比较中国和外国——这个是我自己的选择,因为今天的学术界,国家间的合作和交流已不可忽视。类似吴恩达这样的外籍华人,其实也在为中国的人工智能发展做贡献。与其限定国家,不如从整体上看一看,地球上的华人科学家、研究者群体,到底有多厉害。 关注时间范围是2006到2016年,跨度10年左右——因为许多人说,这一波人工智能大潮是从2006后的几年时间里,才开始真正兴起的。 我的统计结果 来看下2006到2016年间华人作者的平均贡献:

在2006到2016年的时间段里,近两万篇最顶级的人工智能文章中,由华人贡献的文章数和被引用数,分别占全部数字的29.2%和31.8%。近十年,华人用五分之一左右的作者人数,平均贡献了三成的顶级AI研究文章和被引用数。统计角度,这已经是超出平均水平的科研贡献了。 但平均数并不能看出华人科学家、研究者在最近几年的发力程度。来看2006到2015年间,华人贡献的文章数和被引用数的变化趋势:

2006到2015年间,华人作者参与的顶级AI论文,占全部顶级AI论文数量的比例,从23.2%逐年递增到42.8%。而华人作者参与的顶级AI论文被引用次数,占全部顶级AI论文被引用次数的比例从25.5%逐年递增到55.8%(2016 年数据较少,未用于趋势比较)。 也就是说,即便只统计顶级出版物里的顶级文章,中国人/华人在人工智能领域的贡献,在发展趋势上也和白宫报告中揭示的规律如出一辙——无论从哪个角度来说,中国人/华人正在人工智能领域里发挥举足轻重的作用,而且,从2014年,2015年开始,中国人/华人已经处于人工智能研究的领先地位,占据了人工智能科研世界的半壁江山!

个案分析 会有人觉得这个统计很不可思议吗?这个结果会出乎很多人意料吗?我们还可以拿一个更具体的例子,来深入分析一下。 在顶级人工智能期刊和会议录里,我来举个大名鼎鼎的例子吧:IEEE模式分析与机器智能汇刊(IEEE Transactions on Pattern Analysis and Machine Intelligence,简称PAMI),2015年影响因子6.077,高到没朋友,想往这里投稿的同学可能都知道被接受和发表的难度有多恐怖。 我从《IEEE模式分析与机器智能汇刊》里按引用数选出2006到2016年间的前500篇论文,下面是这500篇论文的引用数分布情况:

其实很恐怖的,前500篇文章最高引用数2715,最低引用数41——真顶级期刊!普通期刊难以望其项背呀。 那么,这500篇最顶级的人工智能论文里,华人科学家、研究者的贡献如何呢?先说几个数字:500篇顶级文章的作者一共1220人,其中华人科学家、研究者316人,占25.9%。所有作者单独累加计算的被引用数总和是231361次,其中,华人科学家、研究者被引用数总和是63846 次,占27.6%。如果单看2014年(当年华人的文章数、引用数均较高)的数据,华人科学家、研究者被引用数占51.8%,超过了半数。

如果只看《IEEE模式分析与机器智能汇刊》在2006到2016年间,引用数最多的10位华人作者和10位非华人作者的具体情况,也是一个很有趣的表格:

《IEEE模式分析与机器智能汇刊》的华人前10位大牛,与非华人前10位大牛,在每个人的总引用数上几乎不相上下。的确,最顶尖的人工智能科学家里,中国人/华人的贡献丝毫不亚于其他科学家。 另外,如果对人工智能特别是模式识别的研究领域不熟悉,那么,记住表中这20位顶尖科学家的名字吧。有兴趣的话,大家可以去搜一搜他们的简历,看看他们都在哪里工作,在哪里做研究,他们的学生、同事都是谁,相信会有很多发现。 为什么中国人/华人在人工智能领域这么强?因为数学好?因为兴趣使然?因为思维习惯?因为勤奋?因为教育?你们的答案是什么?

原文发布于微信公众号 - 机器人网(robot_globalsources)

原文发表时间:2017-09-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

大限将至?Google先知

在古代,总有高人夜观天象,预测某人行将就木。个中玄学,无法解释,准确与否更无从得知。

1033
来自专栏宏伦工作室

SODA-大型活动大规模人群的识别和疏散:从公交2.0到公交3.0

2536
来自专栏新智元

AI设计出超高速自行车,冲击133迈跑赢汽车

【新智元导读】EPFL衍生公司开发了一款软件,利用深度学习自动设计符合空气动力学的自行车。现在AI设计出的这辆自行车有望打破现在人类设计的自行车行驶的世界纪录。

1010
来自专栏华章科技

豆瓣还是朋友圈:大数据、新方法和日常问

问题来了,怎么才能设计一种实证策略,把这两种效应区分开呢?这是Gilchrist和Sands在Journal of Political Economy即将刊出的...

863
来自专栏PPV课数据科学社区

莱布尼兹如何想出微积分?

一、引言 莱布尼兹 Leibniz(1646~1716)在1714年发表一篇文章叫做 "Historia et origo calculi differenti...

37014
来自专栏用户2442861的专栏

如何学好图像处理——从小白到大神?

http://blog.csdn.net/baimafujinji/article/details/50750468

2242
来自专栏大数据挖掘DT机器学习

学习R语言对金融分析人士有何意义?

说一说我的背景,大学里c入门,转入R。在学校里弄了一阵生统与经济。现在搞云端理财的网站,后端是用R实现的,搞量化风险管理和资产组合的,其中要用到很多运算。R...

2986
来自专栏新智元

中国团队“霸屏”全球权威人脸识别竞赛,依图夺冠!

根据最新公布的全球权威人脸识别供应商测试 FRVT 结果,旷视、商汤和依图这三家视觉独角兽首次在公开场合同台竞技,最终由依图拿下第一。

982
来自专栏镁客网

性能达“怪兽”级别的激光器,以超高发射频率拍摄达原子分辨率照片 | 黑科技

1490
来自专栏量子位

今年的NIPS大会还没开,但五大AI竞赛已在PK中

陈桦 编译整理 量子位 出品 | 公众号 QbitAI ? 如果希望推动创新,那么举办比赛是个好主意。这就是NIPS(神经信息处理系统)大会提出的设想。在今年的...

3736

扫码关注云+社区

领取腾讯云代金券