如何快速梳理领域文献

烦恼

给研究生上课的时候,有一次作业是让他们就某一个具体领域做文献分析。这个作业基本上就没有很完满而愉快地完成过。

学生们常见的做法是拿一个关键词去文献数据库里面搜索。如果得到的结果是个位数,则大喜过望。把文献都下载下来,一一阅读,然后手动做个统计图表,展示出来。

如果搜到的文献数量超过3位数,学生们的做法往往是双手一摊,告诉我:“老师,文献太多了。读不过来,就没做。要不然您告诉我哪几篇文献重要?我马上去看,下周展示。”

我时常被这种创意答案气乐了。

实际上,这个任务训练学生将来做毕业论文时如何综述文献。他们的答案并不全错。大部分情况下,你找到一个想法,一个问题。只要一搜索,就会发现相关文献如长江之水滚滚而来。把全部文献都看一遍,基本上是不可能的。即便把存量看完,数量更多的增量文献又涌了出来。你很快会陷入深度抑郁。正如《庄子·内篇·养生主》里说:

吾生也有涯,而知也无涯。以有涯随无涯,殆已!

你的时间和注意力是有限而珍贵的。因此你必须对文献歧视对待,选择重点文献来阅读。大部分文献都会被你丢弃不读或者只是扫读(skimming),你大可不必为此羞愧甚至自责。

哪些文献是重点文献呢?这个问题你必须学会自己解决。而不能坐在那里等着老师给你标准答案。

精华

学术期刊、会议和大部头著作构成的知识大网,跟你熟悉的网络论坛没有什么实质区别。

常逛论坛的话,你应该对如何选择阅读内容有很深刻的体会。

常见的做法是去找那些精华帖和热帖先来看。精华帖很重要,因为其质量被高度评价、而且推荐。热帖未必质量好,可能只是当下人们关心的某个话题,或者作者的某些提法极富争议,因而吸引眼球。更常见的,只是纯粹的“标题党”而已。

一般论坛都会有专人来负责维护,去粗取精。然而学术文献里哪篇是精华?你就很难直接看标签来识别了。

怎么办呢?最简单的办法是把文献之间的关系可视化。

这样,你就可以看见哪一个主题(文献)下面回复(引用文献)的人更多,或者帖子的主题(文献聚类)有哪些。

有了这些线索,你就可以在浩如烟海的检索结果里锁定那些重点文献了。

工具

这个工作,当然可以手动来做。拥有方便的计算机辅助工具之前,这可能也是不得已的办法。

但是,现在如果你还去手绘,效率就太低了。文献可视化工具有很多。从功能和易用性综合权衡,推荐VOSviewer

你的第一步还是需要采集感兴趣的全部文献。采集某个领域文献的时候,应该找一个合适的入口。其中储存的文献信息不仅要全面,而且文献间的引用关系也得完整保留。

常见的入口包括ScopusWeb of Science。注意这两个平台都有访问权限控制和单次下载文献信息的最大数量。请使用校园网IP地址登录操作,根据需要下载文献信息,并存储为合适的格式。为了VOSviewer可以正确打开,请选择用TAB分割的文本方式,文献记录要包含全部字段和引用信息。

然后你就可以在VOSviewer中进行分析了。例如你可以选择生成术语地图(term map)。不同主题的文献会自动聚类,用不同颜色表示类别,文献之间的关联一目了然。

有的主题词汇比其他的词汇更大,这表示了相关文献数量的多寡。一下子,你就能找到在你关心的“论坛”里面,哪些主题是人们更感兴趣的。

你可以放大细节,了解某一个主题内部具体术语之间的关联,以把握更为细致的脉络。

拓展

主题只是文献多种描述标记中的一种而已。因为在采集数据阶段,我们保存了全部的元数据。因此,你可以分析更多自己感兴趣的角度。

假如你关注期刊的联系,那么不妨采用共引(co-citation)关系来看期刊之间的关联网络。

不同领域的期刊采用不同颜色标记。你会清晰看到不同领域期刊之间是如何发生联系的。

如果你的观察角度更为宏观,还可以用作者们所在国家作为节点,看不同国家作者间的合作关系。

这张图很明显告诉我们,当今的科研活动早已不是闭门造车、独立发展了。与国际学术界的协作关系越紧密,获益就越多。看看那些大节点的位置和链接数量便一目了然。

教程

如果你感兴趣的话,请阅读以下参考资料,一步步学习如何使用VOSviewer:

  1. VOSviewer教程
  2. VOSviewer分析样例图
  3. VOSviewer相关论文列表

如果你是个视频学习者,可以看VOSviewer作者的官方视频教程。作者的英语口音有些重,但是内容绝对权威而清晰。

讨论

除了VOSviewer,你还知道哪些文献可视化工具?相对VOSviewer,它们有哪些优势和不足?欢迎留言,我们一起交流讨论。

原文发布于微信公众号 - 玉树芝兰(nkwangshuyi)

原文发表时间:2017-04-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | 超大规模图计算在阿里巴巴的应用都有哪些?四篇KDD oral论文抢先看(附论文下载)| KDD 2018

AI 科技评论按:本文为阿里巴巴提供的 KDD 2018 解读稿件。这一事件在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有相应加分。

16620
来自专栏ytkah

腾讯织云Metis智能运维学件平台正式开源

10月20日,腾讯织云 Metis 智能运维学件平台正式对外开源。Metis 是 AIOps(Algorithmic IT Operations),即智能运维领...

68510
来自专栏AI科技大本营的专栏

AI 技术讲座精选: 数学不好,也可以学习人工智能(二)

【AI100 导读】本系列文章将陆续向大家推荐一些数学用书,今天这篇文章有针对性的介绍了数学不好的人,究竟该怎样学习人工智能。 ? 如果你已经看过本系列的第一篇...

38260
来自专栏AI科技评论

不一样的论文解读:2018 KDD best paper「Embeddings at Airbnb」

Airbnb 的 Real-time Personalization using Embeddings for Search Ranking at Airbnb...

19820
来自专栏数据科学与人工智能

【深度学习】Github上的十大深度学习项目

本文作者Matthew May是一位正在进行并行式机器学习算法研究的计算机硕士研究生,同时Matthew也是一位数据挖掘研习者,数据发烧友,热忱的机器学习科学家...

45570
来自专栏AI科技评论

深度:机器如何模仿人类的学习方式?

导读: 古有算盘,今有计算机,人工智能(Artificial Intelligence,AI)始终是人类永恒又美好的梦想。然而,漫漫的历史长河中人类前仆后继,虽...

37440
来自专栏CDA数据分析师

专栏 | 案例:电信用户分群精准画像的7个步骤

“每天一个数据”分析师新一期内容奉上,请享用~ 转载请注明来自CDA数据分析师 否则小编将举报到底! 本期我们有幸采访到的嘉宾名叫兰锦池,2012年硕士毕业,...

32790
来自专栏IT派

推荐:35个热门又实用的开源 AI 项目!

2017年企业界在AI技术上的开支将达到125亿美元,比2016年增长逾59.3%。这股强劲的增长势头可能会一直持续到2020年,到时收入有望达到460亿美元。...

80190
来自专栏每周一脱topic

推荐系统-学习总结

推荐系统目前几乎无处不在,主流的app都基本应用到了推荐系统。

2.6K130
来自专栏AI科技大本营的专栏

回顾2016深度学习十大框架

我喜欢参加在西班牙马德里举办的机器学习见面会,也算是西班牙马德里TensorFlow小组和机器学习(Machine Learning)小组的常客,在自动无人驾驶...

398110

扫码关注云+社区

领取腾讯云代金券