人工智能学术引擎帮助科学家应对海量文献

目前有超过3.4万种同行评议学术期刊,这些期刊每年合计发表的文章数约250万篇。据估计,一名研究人员每年约能阅读其中的270篇文章,具体取决于所研究的学科。

科学家们永远追赶不上学术文章发表的速度,因而会错过一些重要的学术见解。幸运的是,美国艾伦人工智能研究所(Allen Institute for Artificial Intelligence,AI2)的新研究成果有助于克服这一难题。AI2将其基于人工智能的搜索引擎Semantic Scholar扩展到了神经科学领域。此功能的推出意味着AI2向其长期愿景迈出了新的一步:让人类和机器携手推进科学发展并拯救生命。

该搜索引擎最初于2015年11月推出,可通过更加深入地理解学术论文的内容和背景对学术论文进行排序。广受欢迎的Google学术搜索(Google Scholar)可访问约2亿份文档,同时还能扫描付费文章,但它仅可按关键词搜索,而Semantic Scholar可以评估对某篇论文的哪些引用最有意义,并按引用率高低对论文进行排名,即按论文的“热搜度”进行排名。

最初推出时,Semantic Scholar的搜索范围限制为计算机科学领域的300万篇论文,通过与AI2姐妹组织艾伦脑科学研究所(Allen Institute for Brain Science)合作,该网站新增了数百万篇论文,并为神经学和医学领域量身定制了新的筛选器;借助这些筛选器,用户可以根据各种内容进行搜索,例如根据某篇论文研究的大脑组成部分或细胞类型、根据研究的模式生物或研究方法进行搜索。首席执行官Oren Etzioni表示,AI2计划在2017年对PubMed的所有内容编制索引,并扩展到所有医疗科学领域。

“我最频繁使用的学术引擎仍然是Google学术搜索,”在西班牙马德里软件公司Expert System从事语义搜索方面工作的Jose Manuel Gómez-Pérez表示,“但这个领域拥有巨大潜力。”

Semantic Scholar并不是现有的唯一一个基于人工智能的搜索引擎。计算巨头微软于2016年5月悄无声息地公开发布了其自主开发的人工智能学术搜索工具Microsoft Academic,用于取代这款工具的前身Microsoft Academic Search。

微软通过应用程序编程界面(API)以及开放学术社区(Open Academic Society,微软与AI2及其他研究机构的合作成果)向研究人员提供其学术搜索算法和数据。“参与的人员越多,效果越好,”在微软负责这方面工作的Kuansan Wang说道。他表示,Semantic Scholar深入研究自然语言处理,即了解论文和查询中完整句子的意思,而微软的工具则由该公司的网络搜索引擎必应提供语义搜索功能支持,可以涵盖更多领域,覆盖面达到1.6亿种出版物。

与Semantic Scholar一样,Microsoft Academic提供有用的(且范围同样广泛的)筛选器,包括按作者、期刊或按研究领域进行筛选,还能编制每个子学科中最具影响力的科学家的排行榜。这些科学家是通过递归算法(免费提供)判断出的该领域中最“具影响力”出版物的作者。这一算法的原理是,如果某篇论文被其他有影响力的论文引用,那么该论文就是具有影响力的论文。根据Microsoft Academic的判断,过去六个月最顶尖的神经科学家是美国明尼苏达州罗彻斯特马约诊所(Mayo Clinic)的Clifford Jack。

其他学者表示,微软的研究成果给他们留下了深刻印象。英国密德萨斯大学(Middlesex University)科学计量领域的研究员Anne-Wil Harzing对这一新产品进行了分析,她表示该搜索引擎几乎结合了Google学术搜索的广泛覆盖面和斯高帕斯数据库(Scopus)、科学网(Web of Science)等文献数据库的结构化结果筛选这两大优点。“Microsoft Academic这只浴火重生的凤凰无疑拥有更广阔的羽翼,”她说道。微软研究院表示,他们正在开发更加个性化的版本,用户登录后微软能够向他们推送最符合其兴趣的新论文或通知他们有关其作品的引用情况,这一版本预期于2017年初发布。

其他公司和学术机构也在开发以人工智能为导向的软件,以便更深入地研究网络上发现的内容。例如,位于德国萨尔布吕肯的马克斯普朗克信息学研究所(Max Planck Institute for Informatics)正在开发一款名为DeepLife的引擎,该引擎专为健康和生命科学领域设计。

从长期来看,AI2的目标是开发一种可以回答科学问题、提出新实验设计或抛出有用假设的系统。Etzioni说道:“在20年内,人工智能将能实现阅读,而更重要的是能够理解科学文本”。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-12-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

谷歌为什么要开放TensorFlow

1936
来自专栏PPV课数据科学社区

【推荐】更多数据……巨多数据……大数据!

如果你所在的企业正在利用大数据支撑运营型分析工作,本章讲的正是这时你需要掌握和了解的那些关乎大数据的重要趋势。过去的许多年间,企业积累的数据越来越多。尤其是到了...

2696
来自专栏机器之心

观点 | MSRA副院长周明:未来5到10年是NLP的成熟期

机器之心原创 作者:虞喵喵 「接下来,NLP 将迎来 60 多年来发展最迅速的时期。」 6 月 1 日,在微软亚洲研究院(MSRA)的自然语言处理(NLP)主题...

36011
来自专栏CDA数据分析师

“揭秘”大数据的10个神话!

本文整合自恒信国通 也许对大数据更好的一个类比是它就像一匹意气风发的冠军赛马: 通过适当的训练和天赋的骑师,良种赛马可以创造马场记录–但没有训练和骑手,这个强大...

1825
来自专栏大数据文摘

高管必备思维:区分2类问题和4类可视化方法

1052
来自专栏钱塘大数据

关于大数据的10个误解,你一定要知道

也许对大数据更好的一个类比是它就像一匹意气风发的冠军赛马: 通过适当的训练和天赋的骑师,良种赛马可以创造马场记录–但没有训练和骑手,这个强大的动物根本连起跑门都...

3195
来自专栏CDA数据分析师

为什么你学完了68个Python函数,却依旧做不好数据分析?

? 作者 Gam 本文为CDA数据分析师原创作品,转载需授权 数据分析老鸟都知道,相比于自己作出好的数据分析报告,“教别人如何入门数据分析”这事情简单多了...

3357
来自专栏JadePeng的技术博客

管理培训笔记

同时注意,选择合适人员 - 客观条件 - 人员意愿 + 不会做 + 不能做 + 不想做

773
来自专栏互联网杂技

八个小诀窍帮你玩转网站背景图设计

几乎所有设计师都知道网页设计中用图的重要性,但在实际项目中,如何做好图片设计?本文将与大家分享如何通过“把握图片的意图”做好设计。 给设计师的建议:做图前先别急...

2734
来自专栏机器之心

专栏 | 超越图灵测试:自省性问答才是检测真正人工智能的方法

机器之心专栏 作者:杭州北冥星眸科技有限公司 CEO 钱小一 1950 年,英国数学家阿兰•图灵(Alan Turing)提出了图灵测试(Turing Test...

2909

扫码关注云+社区