人工智能学术引擎帮助科学家应对海量文献

目前有超过3.4万种同行评议学术期刊,这些期刊每年合计发表的文章数约250万篇。据估计,一名研究人员每年约能阅读其中的270篇文章,具体取决于所研究的学科。

科学家们永远追赶不上学术文章发表的速度,因而会错过一些重要的学术见解。幸运的是,美国艾伦人工智能研究所(Allen Institute for Artificial Intelligence,AI2)的新研究成果有助于克服这一难题。AI2将其基于人工智能的搜索引擎Semantic Scholar扩展到了神经科学领域。此功能的推出意味着AI2向其长期愿景迈出了新的一步:让人类和机器携手推进科学发展并拯救生命。

该搜索引擎最初于2015年11月推出,可通过更加深入地理解学术论文的内容和背景对学术论文进行排序。广受欢迎的Google学术搜索(Google Scholar)可访问约2亿份文档,同时还能扫描付费文章,但它仅可按关键词搜索,而Semantic Scholar可以评估对某篇论文的哪些引用最有意义,并按引用率高低对论文进行排名,即按论文的“热搜度”进行排名。

最初推出时,Semantic Scholar的搜索范围限制为计算机科学领域的300万篇论文,通过与AI2姐妹组织艾伦脑科学研究所(Allen Institute for Brain Science)合作,该网站新增了数百万篇论文,并为神经学和医学领域量身定制了新的筛选器;借助这些筛选器,用户可以根据各种内容进行搜索,例如根据某篇论文研究的大脑组成部分或细胞类型、根据研究的模式生物或研究方法进行搜索。首席执行官Oren Etzioni表示,AI2计划在2017年对PubMed的所有内容编制索引,并扩展到所有医疗科学领域。

“我最频繁使用的学术引擎仍然是Google学术搜索,”在西班牙马德里软件公司Expert System从事语义搜索方面工作的Jose Manuel Gómez-Pérez表示,“但这个领域拥有巨大潜力。”

Semantic Scholar并不是现有的唯一一个基于人工智能的搜索引擎。计算巨头微软于2016年5月悄无声息地公开发布了其自主开发的人工智能学术搜索工具Microsoft Academic,用于取代这款工具的前身Microsoft Academic Search。

微软通过应用程序编程界面(API)以及开放学术社区(Open Academic Society,微软与AI2及其他研究机构的合作成果)向研究人员提供其学术搜索算法和数据。“参与的人员越多,效果越好,”在微软负责这方面工作的Kuansan Wang说道。他表示,Semantic Scholar深入研究自然语言处理,即了解论文和查询中完整句子的意思,而微软的工具则由该公司的网络搜索引擎必应提供语义搜索功能支持,可以涵盖更多领域,覆盖面达到1.6亿种出版物。

与Semantic Scholar一样,Microsoft Academic提供有用的(且范围同样广泛的)筛选器,包括按作者、期刊或按研究领域进行筛选,还能编制每个子学科中最具影响力的科学家的排行榜。这些科学家是通过递归算法(免费提供)判断出的该领域中最“具影响力”出版物的作者。这一算法的原理是,如果某篇论文被其他有影响力的论文引用,那么该论文就是具有影响力的论文。根据Microsoft Academic的判断,过去六个月最顶尖的神经科学家是美国明尼苏达州罗彻斯特马约诊所(Mayo Clinic)的Clifford Jack。

其他学者表示,微软的研究成果给他们留下了深刻印象。英国密德萨斯大学(Middlesex University)科学计量领域的研究员Anne-Wil Harzing对这一新产品进行了分析,她表示该搜索引擎几乎结合了Google学术搜索的广泛覆盖面和斯高帕斯数据库(Scopus)、科学网(Web of Science)等文献数据库的结构化结果筛选这两大优点。“Microsoft Academic这只浴火重生的凤凰无疑拥有更广阔的羽翼,”她说道。微软研究院表示,他们正在开发更加个性化的版本,用户登录后微软能够向他们推送最符合其兴趣的新论文或通知他们有关其作品的引用情况,这一版本预期于2017年初发布。

其他公司和学术机构也在开发以人工智能为导向的软件,以便更深入地研究网络上发现的内容。例如,位于德国萨尔布吕肯的马克斯普朗克信息学研究所(Max Planck Institute for Informatics)正在开发一款名为DeepLife的引擎,该引擎专为健康和生命科学领域设计。

从长期来看,AI2的目标是开发一种可以回答科学问题、提出新实验设计或抛出有用假设的系统。Etzioni说道:“在20年内,人工智能将能实现阅读,而更重要的是能够理解科学文本”。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-12-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏吴伟祥

Java Calendar 类的时间操作 原

Calendar 的 month 从 0 开始,也就是全年 12 个月由 0 ~ 11 进行表示。

793
来自专栏C/C++基础

C#获取系统当前时间

ystem.DateTime currentTime=new System.DateTime(); 1.1 取当前年月日时分秒 currentTime=Sy...

1153
来自专栏跟着阿笨一起玩NET

GB2312转换成UTF-8与utf_8转换成GB2312

1941
来自专栏互联网开发者交流社区

WinForm之窗体应用程序

1873
来自专栏c#开发者

简体-繁体内码转换API

 public class ANSIConversionAPI     {         const int SIMPLIFIED_CHINESE =...

3544
来自专栏Pulsar-V

C# 数据类型之String转byte[]

string类型转成byte[]: byte[] byteArray = System.Text.Encoding.Default.GetBytes ( str...

2855
来自专栏码匠的流水账

聊聊spring cloud的LoadBalancerAutoConfiguration

本文主要研究一下spring cloud的LoadBalancerAutoConfiguration

1082
来自专栏菩提树下的杨过

遍历文件夹所有文件(示例)

//要引用 using System.Collections.Specialized; public StringCollection GetAllFile...

2159
来自专栏成长道路

JDBC动态SQL语句连接orcale数据库的工具类

import java.sql.Connection; import java.sql.DriverManager; import java.sql.P...

2520
来自专栏海说

Java应用中常见的JDBC连接字符串(SQLite、MySQL、Oracle、Sybase、SQLServer、DB2)

Java应用中常见的JDBC连接字符串 Java应用中连接数据库是不可或缺的,于是便整理一些可能用到的JDBC的jar包及其相匹配的URL,以备日后查阅。 1)...

2760

扫码关注云+社区