目前有超过3.4万种同行评议学术期刊,这些期刊每年合计发表的文章数约250万篇。据估计,一名研究人员每年约能阅读其中的270篇文章,具体取决于所研究的学科。
科学家们永远追赶不上学术文章发表的速度,因而会错过一些重要的学术见解。幸运的是,美国艾伦人工智能研究所(Allen Institute for Artificial Intelligence,AI2)的新研究成果有助于克服这一难题。AI2将其基于人工智能的搜索引擎Semantic Scholar扩展到了神经科学领域。此功能的推出意味着AI2向其长期愿景迈出了新的一步:让人类和机器携手推进科学发展并拯救生命。
该搜索引擎最初于2015年11月推出,可通过更加深入地理解学术论文的内容和背景对学术论文进行排序。广受欢迎的Google学术搜索(Google Scholar)可访问约2亿份文档,同时还能扫描付费文章,但它仅可按关键词搜索,而Semantic Scholar可以评估对某篇论文的哪些引用最有意义,并按引用率高低对论文进行排名,即按论文的“热搜度”进行排名。
最初推出时,Semantic Scholar的搜索范围限制为计算机科学领域的300万篇论文,通过与AI2姐妹组织艾伦脑科学研究所(Allen Institute for Brain Science)合作,该网站新增了数百万篇论文,并为神经学和医学领域量身定制了新的筛选器;借助这些筛选器,用户可以根据各种内容进行搜索,例如根据某篇论文研究的大脑组成部分或细胞类型、根据研究的模式生物或研究方法进行搜索。首席执行官Oren Etzioni表示,AI2计划在2017年对PubMed的所有内容编制索引,并扩展到所有医疗科学领域。
“我最频繁使用的学术引擎仍然是Google学术搜索,”在西班牙马德里软件公司Expert System从事语义搜索方面工作的Jose Manuel Gómez-Pérez表示,“但这个领域拥有巨大潜力。”
Semantic Scholar并不是现有的唯一一个基于人工智能的搜索引擎。计算巨头微软于2016年5月悄无声息地公开发布了其自主开发的人工智能学术搜索工具Microsoft Academic,用于取代这款工具的前身Microsoft Academic Search。
微软通过应用程序编程界面(API)以及开放学术社区(Open Academic Society,微软与AI2及其他研究机构的合作成果)向研究人员提供其学术搜索算法和数据。“参与的人员越多,效果越好,”在微软负责这方面工作的Kuansan Wang说道。他表示,Semantic Scholar深入研究自然语言处理,即了解论文和查询中完整句子的意思,而微软的工具则由该公司的网络搜索引擎必应提供语义搜索功能支持,可以涵盖更多领域,覆盖面达到1.6亿种出版物。
与Semantic Scholar一样,Microsoft Academic提供有用的(且范围同样广泛的)筛选器,包括按作者、期刊或按研究领域进行筛选,还能编制每个子学科中最具影响力的科学家的排行榜。这些科学家是通过递归算法(免费提供)判断出的该领域中最“具影响力”出版物的作者。这一算法的原理是,如果某篇论文被其他有影响力的论文引用,那么该论文就是具有影响力的论文。根据Microsoft Academic的判断,过去六个月最顶尖的神经科学家是美国明尼苏达州罗彻斯特马约诊所(Mayo Clinic)的Clifford Jack。
其他学者表示,微软的研究成果给他们留下了深刻印象。英国密德萨斯大学(Middlesex University)科学计量领域的研究员Anne-Wil Harzing对这一新产品进行了分析,她表示该搜索引擎几乎结合了Google学术搜索的广泛覆盖面和斯高帕斯数据库(Scopus)、科学网(Web of Science)等文献数据库的结构化结果筛选这两大优点。“Microsoft Academic这只浴火重生的凤凰无疑拥有更广阔的羽翼,”她说道。微软研究院表示,他们正在开发更加个性化的版本,用户登录后微软能够向他们推送最符合其兴趣的新论文或通知他们有关其作品的引用情况,这一版本预期于2017年初发布。
其他公司和学术机构也在开发以人工智能为导向的软件,以便更深入地研究网络上发现的内容。例如,位于德国萨尔布吕肯的马克斯普朗克信息学研究所(Max Planck Institute for Informatics)正在开发一款名为DeepLife的引擎,该引擎专为健康和生命科学领域设计。
从长期来看,AI2的目标是开发一种可以回答科学问题、提出新实验设计或抛出有用假设的系统。Etzioni说道:“在20年内,人工智能将能实现阅读,而更重要的是能够理解科学文本”。