前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【Science】算法揭秘深度学习大牛,谁影响了谁?

【Science】算法揭秘深度学习大牛,谁影响了谁?

作者头像
新智元
发布2018-03-21 17:52:04
7850
发布2018-03-21 17:52:04
举报
文章被收录于专栏:新智元

【新智元导读】当今计算机科学领域哪位科学家的影响力最大?由微软联合创始人保罗·艾伦创立的艾伦人工智能研究所推出Semantic Scholar学术搜索引擎,使用机器学习算法,告诉你你对谁的影响最大,谁又对你的影响最大。

2015年秋天,由微软联合创始人保罗·艾伦创立的艾伦人工智能研究所(Allen Institute for Artificial Intelligence)发布了一款名为Semantic Scholar的搜索服务,其瞄准的竞争对手是Google Scholar、PubMed和其他在线学术搜索引擎。这项计划最初的目标是让这款由人工智能驱动的搜索引擎能在一定程度上真正理解搜索出来的论文。而如今,Semantic Scholar有了一个新目标:衡量一位科学家或一所研究机构对之后研究的影响。

根据Science报道,Semantic Scholar目前专注于计算机科学领域,但预计今年秋天会拓展到神经科学领域,而后再更加广泛地拓展开去。同时,Semantic Scholar将不仅仅为论文排名,也会根据某一影响因素为作者、机构排名。例如,Semantic Scholar发现,MIT是当今计算机科学领域影响力最大的机构——这并不奇怪。不过,谁是计算机科学领域影响力最大的科学家呢?

如果你要看原始引用次数最高的人,那么计算机科学领域当前顶尖科学家是加州大学伯克利分校的Scott Shenker。但使用Semantic Scholar得出的结果是,影响力最大的是Shenker的同事——同样在加州大学伯克利分校工作的Michael I. Jordan。Jordan是人工智能领域的先驱,但他的名字极少为外人所知。艾伦人工智能研究所所长、Semantic Scholar的研发负责人Oren Etzioni戏称其为“机器学习领域的迈克尔·乔丹”。

使用Semantic Scholar搜索Michael I. Jordan的结果。来源:semanticscholar.org

不发表就死亡

影响力这个因素历来很难衡量。传统的做法是计算论文被引用的次数,而这个数据也成了学术界评价论文的核心标准,汤森路透、Elsevier等数据库都有自己的排名。

但是,并不是所有的引用都是一样的——作为整篇论文的的灵感源泉被引用和仅仅在实验方法部分简要提到一句,这两种引用是截然不用的。因此,单纯计算论文引用次数难免会描绘出一幅有误差的画像。研究人员也抱怨,传统的以引用次数为基础的评判标准助长了一股“不发表就死亡”的风气,迫使他们有论文就尽快发表,生怕被人抢了先机,也不管论文发现重不重要,只希望被引用次数多就好。

如今,在很大程度上Google Scholar决定了组织和排列学术研究的标准,而这个标准跟Google搜索引擎的PageRank算法有关。当然也有其他的方法,比如h-index,这个指数能衡量指定研究者或期刊的论文产量及其影响因子。

有人指出,学界真正需要的是更直接衡量一篇论文对其后研究所产生的影响。因此,Etzioni团队为Semantic Scholar增加了一个新功能,描绘“影响力图谱”(influence graph)。数据库里的论文大多都是以PDF形式存储的,对人来说很好阅读,但对计算机而言很难理解。因此,Etzioni研究团队用机器学习算法训练计算机,让计算机能够像人一样不仅能分辨出论文的各个部分——摘要、研究方法、结果讨论,还要鉴别论文是如何被引用的。

通过比较其生成结果和人类专家的评分,Semantic Scholar计算机模型得到稳步提升。Etzioni告诉Science记者,目前Semantic Scholar系统还只能衡量相互引用的两篇论文彼此间的“直接影响”,但将来的版本会把多篇论文间的间接影响也包括进来。

使用Semantic Scholar搜索吴恩达(Andrew Ng)的结果。吴恩达在 Semantic Scholar 的影响力排名第二。来源:semanticscholar.org

如果你是论文作者,使用Semantic Scholar查询后,你会得到一张图表分析结果,告诉你你受谁的研究影响最大,而谁又受你的影响最大。在各项评估参数中,“速度”衡量的是过去3年以来某篇论文被引用的次数,而“加速度”则是这些引用在以多快的速度发生。Etzioni告诉Geekwire记者,这篇论文可能是很早以前发表的,但看加速度你能看出最近它变得很热,很多人都在引用它。

你对谁影响最大?谁对你影响最大?

Science记者让怀俄明大学的计算机科学家Jeff Clune做了测试,Clune表示体验非常有趣。他对Science记者说,他可以看见对他学术生涯影响最大的科学家都有谁,还有哪个科学家受他影响最大。Clune在Semantic Scholar上测试出的结果大多与他的预期相符——他的导师对他影响最大,他对他带的研究生影响最大——但也有例外。Clune发现了一个他不熟悉的名字,这个人对Clune发表的论文做了深度跟踪研究。

除了娱乐价值,Clune认为Semantic Scholar对学界的招聘和提升也有用。Clune对Science记者说,在招聘新人和评审终身教授时,评审委员会必须要考虑这个人既有的工作成果(论文引用数),也需要预测每位候选人对将来研究的影响。Semantic Scholar致力于通过衡量研究主体的“速度”和“加速度”揭示该领域的热门在哪里,其他人以多快的速度在引用某项研究成果,以及判断这一研究是否符合主流趋势,而这些都是评审委员会已经在考虑的问题,因此Clune认为Semantic Scholar得出的数据会在将来得到采用。

使用Semantic Scholar搜索 Yann LeCun 的结果。来源:semanticscholar.org

但同时Clune也表示了担忧,他认为Semantic Scholar就像“黑箱子”:世人要是不理解这些数字都是怎么得出的该怎么办呢?Etzioni也在接受Geekwire记者采访时也承认,Semantic Scholar所用的算法并不完美,但这也是机器学习两面性所在,不过好在你都知道程序所用的数据都是从哪里来的。

另一方面,虽然被Semantic Scholar评为计算机科学领域的明星,Michael I. Jordan谦虚地表示,尽管科学史上有各种大家传说,但他个人认为最能预测科学家是否成功的还是其所处的研究圈子。Jordan在接受Science记者采访时表示,他自己就认识很多拥有绝妙点子的研究人员。

使用Semantic Scholar搜索 Geoffrey E. Hinton 的结果。来源:semanticscholar.org

现在这款工具的测试版已经在 www.semanticscholar.org 发布,你可以登录自行查询。

编译来源:

  1. John Bohannon,Who’s the Michael Jordan of computer science? New tool ranks researchers' influence,sciencemag.org
  2. Alan Boyle,Who’s hot in academia? Semantic Scholar dives more deeply into the data,geekwire.com
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-04-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档