前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICML 2020最全数据分析:超半数接收论文来自美国,中国大陆、英国仅为其1/6

ICML 2020最全数据分析:超半数接收论文来自美国,中国大陆、英国仅为其1/6

作者头像
机器之心
发布2020-06-22 10:45:09
8680
发布2020-06-22 10:45:09
举报
文章被收录于专栏:机器之心

选自Medium

作者:Sergei Ivanov

机器之心编译

参与:小舟、蛋酱

近日,机器学习顶会 ICML 2020 已正式放榜。一位名叫 Sergei Ivanov 的 Medium 博主对本次大会的论文接收数据进行了详细整理,为我们揭示了顶会背后的更多规律。

6 月 3 日,国际机器学习顶会 ICML 2020 放出了论文接收结果。

据官方统计,ICML 2020 共提交 4990 篇论文,最后接收论文 1088 篇,接收率达 21.8%。与往年相比,接收率逐年走低。

ICML 是机器学习领域最重要的会议之一,因此在该会议上发表论文的研究者也会备受关注。受到疫情影响,今年的 ICML 大会已经改为在 2020 年 7 月 13 日至 18 日线上举行。

一位名叫 Sergei Ivanov 的 Medium 博主详细梳理了了 ICML 2020 的论文接收情况,并分析了今年参加会议的作者、机构和国家或地区等相关数据。作者也在 GitHub 上公布了相关代码,项目地址:https://github.com/nd7141/icml2020

论文作者

首先来关注下排名靠前的论文作者。

在 ICML 上发表论文是很困难的,因此能够一次性发表多篇论文的作者会让人印象深刻。来自日本理化学研究所(RIKEN)和东京大学的 Masashi Sugiyama 有 11 篇论文被接收,成为大会中被接收论文数量最多的作者。

在他之后是 Michal Valko(DeepMind)、Michael Jordan(UC Berkeley)以及 Dale Schuurmans(Google / U. of Alberta),三人均有 8 篇文章被接收。

接下来我们看下全球机构组织的排行榜,对于每个机构,本文作者都统计了其参与的论文集,在此给出了 top-30 的机构组织。

谷歌以 114 篇的论文接收数量占据榜首,这大约占据了在 ICML 上发表论文的 1/10。接下来的 3 个机构是 MIT、Stanford 和 Berkeley。同属 Alphabet 的 DeepMind 占据了 Top-5 的位置。

请注意:由于许多论文是合作完成的,因此说 Google+DeepMind 发表了 114+51 篇论文是不够准确的,稍后会提到这一点。

国家和地区

这一部分展示的是论文作者与其所在国家或地区之间的关联,以便查看哪个国家或地区发表论文数量最多。

作为免责声明,作者也提到了,这种关联数据的统计可能会有偏差,主要是因为无法辨认的人名缩写、不同人对同一机构的不同叫法、错别字等问题。作者尽最大的努力做了统计,如果你发现有所缺失,可以在 GitHub 链接里找到可编辑文件。

让我们来看看按国家或地区进行详细分类的统计结果:

毫不意外,美国承包了绝大多数论文。美国研究者参与的论文有 728 篇,大约是论文总数的 3/4,与其他国家和地区相比具有巨大的优势。

排在第二位的是英国(123 篇),第三位是中国大陆(122 篇),二者在接收论文数量上相差无几,但同样仅为美国的六分之一左右。

需要注意的是,国家或地区是根据组织机构的总部所在地而定,而非论文作者所在位置。因此,如果一位论文作者在 Google 苏黎世工作,那么该论文被计入美国,而不是瑞士。

尽管如此,统计数量和实际情况也相差不多。如果仅按照大学分类(全球只有一个从属国家和地区的组织),那么将得到下图:

也就是说,即使不考虑企业机构的因素,美国研究者仍然参与了 ICML 发表论文的一半以上。如果加上所有在美国工作的工业界研究者,数量可能和之前的图很接近。

值得一提的是,英国和中国大陆大约发表了相同数量的文章。DeepMind 发表的文章大约占英国文章总数的 40%。

让我们分别来看下排名靠前的几个国家和地区的情况:

美国在工业和学术领域都有多个机构组织,并且有大量的论文。而英国发表情况基本由 DeepMind 主导,其次是一些大学。

中国内地大学的地位比较强大,但是像华为、阿里巴巴和百度这样的公司正在赶超它们。在加拿大,几乎所有的论文都是大学发表的。

似乎除了美国和中国大陆,大多数国家和地区发表论文的顶级机构都是大学。从全球范围看,大学发表的论文数量是公司的 3 倍。

在美国以外,只有来自英国(DeepMind)、法国(Criteo)、中国大陆(华为、百度、阿里巴巴)、俄罗斯(Yandex)以及韩国(Samsung)的某些机构发表了 5 篇以上的论文。

协作

本文还研究了不同组织之间的协作方式。本文对不同组织之间的协作构建了一张图,图中共有 426 个节点和 1206 条边。如果绘制这张图,将会看到一堆由边连接的点。

点代表组织机构,中间的连接代表协作。每个节点的大小和颜色取决于所发表的论文数量。边的宽度取决于协作的数量。

如果仅取一个有至少 30 个协作的节点的子图,那么将得到一张更具吸引力的图。

有至少 30 个协作的组织的协作网络子图。节点的大小和颜色取决于发表论文的数量,边的宽度取决于协作的数量。

也可以查看单个公司的情况,例如,查看谷歌和 MIT:

有趣的是,你会发现谷歌与其它公司的协作并不像其与大学之间的协作那么多。而 MIT 有许多工业领域的协作伙伴。

最后,来看一下每篇论文的作者和组织的总数。

大多数论文有 3-4 个作者,但是也有一些例外情况,比如 15 个作者。

有 15 个作者的两篇论文分别是:由来自谷歌、牛津大学、剑桥大学、哥伦比亚大学和伯克利大学 15 位研究者发表的论文《Stochastic Flows and Geometric Optimization on the Orthogonal Group》和来自天津大学、阿里巴巴、清华大学以及上海交大的 15 位研究者发表的论文《Dynamic Knapsack Optimization Towards Efficient Multi-Channel Sequential Advertising》。

参与每篇论文的组织数统计如下:

大多数论文有 1 或 2 个组织,但有些论文的撰写有 7 个组织的参与。

两篇有 7 个组织参与的论文分别是:由谷歌、微软、华沙大学、阿姆斯特丹大学、加州大学欧文分校、苏黎世联邦理工学院以及伦敦帝国理工学院的研究者协作完成的《How Good is the Bayes Posterior in Deep Neural Networks Really?》和由蒙特利尔大学、IIIT Hyderabad、麻省理工学院、Mila、特拉华大学以及 LinkedIn 等机构的研究者协作完成的《Learning To Navigate The Synthetically Accessible Chemical Space Using Reinforcement Learning》。

参考链接:https://medium.com/criteo-labs/icml-2020-comprehensive-analysis-of-authors-organizations-and-countries-c4d1bb847fde

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档