如何用 R 快速了解科研领域?

用好 R 环境下的 BiblioShiny 软件包 ,可以让你在友好的图形化界面,快速扫描科研领域。

(由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。)

场景

作为一个初学者,你可能很希望快速了解一个新的科研领域。

诚然,影响因子和排名等指标,可以告诉你这个领域里哪个期刊比较好。但是,作为研究者,你如果只了解到这一层次,还是过于粗浅。

我自己的好奇心,往往会指向某个研究领域的3个问题:

  • 哪些作者比较厉害?
  • 哪些文献比较重要?
  • 哪些主题更值得研究?

这几个问题,你可以采用不同的文献计量工具来解答。有的很容易完成,有的大概需要一些基础知识和技能。

我最近关注到了一款工具,可以非常便捷地帮你一站式解答上述三个问题。

工具

这款工具的名称,叫做 BiblioShiny 。它是一款 R 环境下的软件包。

其实它的底层,你可能听说过,就是大名鼎鼎的 Bibliometrix 。

我是去年听同事宋丽萍教授提到它后,开始关注的。很快尝试后,觉得 Bibliometrix 这款基于 R 软件包功能果然很强大。不过,那时觉得 Bibliometrix 的用户界面还不够友好。

Bibliometrix 的各项操作,都需要程序指令完成。虽然对于文科生来说,门槛并不算太高。但是光看命令手册,可能还是会令不少人丧失尝试的冲动

最近我突然发现, Bibliometrix 的作者们在原先功能的基础上,添加了 Shiny 作为交互可视化用户界面,于是软件易用性大幅提升。

你只需要动动鼠标,就可以轻松完成许多文献计量分析功能。

例如点一下菜单里面的“Collaboration Network”按钮,BiblioShiny 就立刻为你绘制作者合作网络图。

统计文章年均被引趋势?也是点一下按钮的事儿:

软件安装方法很简单。

首先下载最新版的 R 和 Rstudio。安装的详细步骤流程,请你参考我的《如何用Python和R对故事情节做情绪分析?》一文介绍。

安装好后,在 Rstudio 中执行以下3行命令:

install.packages(“bibliometrix”, dependencies=TRUE)
library(bibliometrix)
biblioshiny()

当你看到浏览器弹出如下窗口,就说明软件环境已经齐备了。

有了工具,下面我们就需要数据了。

数据

我是做信息科学的。出于近便原则,本文的样例分析对象,是信息科学领域的一份权威期刊:Management Information Systems Quarterly (下文简称 MIS Quarterly)。

注意你在分析的时候,并不需要局限在某一本或者几本期刊。完全可以使用关键词搜索相关文献。

MIS Quarterly 的文献数据,我是从 Web of Science 下载的。

我对结果进行了精炼,只选择了其中的 Articles 类型。

一共 743 篇文章,导出选择的格式,为 BibTex 。

因为 Web of Science 每次导出记录数量,不能超过500,因此前后下载了2个 BibTex 格式文件。

我把它们打包成了一个 zip 文件(Archive.zip)。这个文件,我为你放在了这个位置(http://t.cn/EPIs99X)。你可以直接下载使用。

如果你希望自己从 Web of Science 下载文献记录,可以参考我的研究生吴查科和同学合作的这份视频教程(http://t.cn/EPIsjtk)。教程是关于 VosViewer 的。但其中4分钟以后,就有 Web of Science 文献记录检索和导出的完整介绍与展示。

在 Biblioshiny 中,选择 Load ,把 file format 设定为 bibtex,选择压缩文件,即Archive.zip,开始上传。

导入完毕后,展示结果列表如下:

软件有了,数据也有了。

下面我给你展示一下,如何解答前面提到的那3个问题,以快速熟悉科研领域。

作者

第一个问题是:

哪些作者比较厉害?

我们先来看看发文数量。能在 MIS Quarterly 这样的顶刊(而且还是季刊)发文,是有相当高的门槛的。因此这里的发文数量能够反映作者的科研能力。

点击进入 Descriptive Analysis 标签页面。

选择 Tables 。

左侧 Result 类型,可以在下拉列表选择。我们选择“Most Productive Authors”(最高产作者)。

分析结果如下:

(插一句,我发现自己的 Facebook 好友也出现在榜单里,立刻有了一种没来由的自豪感。)

排名首位的这位老兄,让我看得肃然起敬——他居然发表了 23 篇 MIS Quarterly !我没看错吧?好像全部文献记录条数也只有700多篇。

怀着好奇心,我在 Google 搜索了一下。

Viswanath Venkatesh is a distinguished professor and Billingsley Chair in Information Systems at the Walton College of Business, University of Arkansas.

Venkatesh 是阿肯色大学教授。我在他的主页,查了一下发表记录,再次震惊了!

他哪里是在投稿?分明是灌水的节奏!

作为季刊,2013年,全部4期上面各有一篇他的文章!

但是,科研论文的数量固然重要,质量也是要保证的嘛。

这种频率发文,质量能保证吗?

带着这个疑问,我们来考察一下第二个问题。

文献

还记得吗?我们的第二个问题就是:

哪些文献比较重要?

这个问题,其实不是那么容易解答。

下载次数多的论文,是不是很重要?

在社交媒体上流传最广的论文,是不是很重要?

目前,学界基本能够达成共识的判断标准,还是看论文被引用的情况

Biblioshiny 可以轻易帮助我们分析论文的 Historiograph ,以便让我们了解哪些论文在学科发展历史上,具有重要的地位。

方法是选择“Intellectual Structure”菜单之下的“Historiograph”。

用默认的参数,我们可以看到数据集中这20篇文献,重要性较高。

点击 Table 标签页,我们看看列表展示的具体信息。

注意这里展示了2项统计指标,一个是 GCS ,也就是 Web of Science 中,文献被引统计总数;另一项是 LCS ,即当前数据集里,文献被引次数。

假设一篇文献 GCS 很高,但是 LCS 不高,很可能意味着在其他领域影响力更大。不过因为我们只找了一份期刊,因此这个因素不宜过度解读。

我们注意到,其中有一篇文献,两项指标都是惊人的。

这篇大作, LCS 为44(注意是被 MIS Quarterly 的其他文章引用),GCS 居然达到了6634。

这篇文献,简直就是一览众山小啊!

想必你也很关心——谁写的?

往左侧的名称信息里一瞥,我们随即看到了非常熟悉的名字。

没错,还是 Venkatesh 教授!

看来,这种频率发文,质量也依然是有保障的。

这……是不是叫做天才?

主题

锁定了领域的高水平作者和重要文献后,我们来尝试回答的第三个问题是:

哪些主题更值得研究?

首先我们得搞清楚主题都有哪些。

我们选择做个词云(Word Cloud),这可以通过点击描述分析(Descriptive Analysis)来完成。

默认绘图结果如下:

注意这里的词汇,来自于 Keywords-Plus(即系统利用标题、摘要等分析结果)。

我们更换一下左侧的 Field 选项,变成 Author Keywords (即作者自己列出的关键词):

确实,分析结果有了差别。

我们还可以继续尝试,只从标题文字做词云:

对比上面几张图,你有什么发现?

我反正是看得眼花缭乱。

不过没关系,我们可以让 Biblioshiny 帮我们把主题归类一下。

点击 Conceptual Structure 菜单,选择其中的“Correspondence Analysis”。

我们关注其中的词汇地图(word map):

看到这里,你大概可以把 MIS Quarterly 的研究关注点聚焦在三个类别上。并且可以知道每个类别是如何被关键词描述的。

但是,即便你知道了这些大致的研究主题分类,也依然难以抉择,自己今后的研究方向,应该向哪里聚焦。

因为,这只代表了历史和现状。你不能看着后视镜开车

这时候,你可以使用 Biblioshiny 辅助决策。方法是点击“主题地图”(Thematic Map)选项。

主题地图中,横轴代表中心度,纵轴代表密度。据此绘制出4个象限。

  • 第一象限(右上角):motor-themes,既重要,又已有良好发展(well-developed);
  • 第二象限(左上角):very specialized/niche themes,已有良好发展,但是对于当前领域不重要;
  • 第三象限(左下角):emerging or disappearing themes,边缘主题,也没有好的发展,可能刚刚涌现,也许即将消失;
  • 第四象限(右下角):basic themes,对领域很重要,但是未获得良好发展。一般是指基础概念。

有了这些背景知识,再回看这张图,就很有意思了。

请你思考一下,哪些主题更值得你投入资源和时间去深度参与呢?

小结

本文我们利用了 R 环境下的 BiblioShiny 软件包,点击几下鼠标,探索了以下3个问题:

  • 哪些作者比较厉害?
  • 哪些文献比较重要?
  • 哪些主题更值得研究?

当然,你会发现其实我们使用的,只是默认参数。针对你研究领域的特征,以及文献数量的多寡,参数的设置其实都是可以调整优化的。

而且你还会注意到,我们所展示的,只是 Biblioshiny 众多实用分析功能里的一小部分。

希望本文给了你一个可以起步的最小行动范例。在此基础上,如果感兴趣,你可以继续学习和充分挖掘 BiblioShiny 与 Bibliometrix 的功能,帮助自己更高效便捷地熟悉某一新科研领域。

延伸阅读

有了兴趣,该如何继续学习呢?

首先,推荐给你这份 Bibliometrix 的官方图文教程(http://t.cn/EPM7jKF)。

如果你喜欢看教学视频,可以点击这个链接查看。

原文发布于微信公众号 - 玉树芝兰(nkwangshuyi)

原文发表时间:2018-09-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏软件测试经验与教训

关于BUG率的计算和它的实际意义的思考

72870
来自专栏算法+

音频算法之小黄人变声 附完整C代码

前面提及到《大话音频变声原理 附简单示例代码》与《声音变调算法PitchShift(模拟汤姆猫) 附完整C++算法实现代码》

92070
来自专栏美团技术团队

美团点评基于Storm的实时数据处理实践

背景 目前美团点评已累计了丰富的线上交易与用户行为数据,为商家赋能需要我们有更强大的专业化数据加工能力,来帮助商家做出正确的决策从而提高用户体验。目前商家端产品...

489110
来自专栏IT派

2018年2月份GitHub上最热门的Python项目:深度学习占半壁江山

本篇文章为大家盘点了2月份最热门的Python 项目,本月最热门的开源项目中,深度学习相关的开源项目占据了半壁江山,让我们一起来看下吧!

12700
来自专栏CDA数据分析师

如何在业务分析中实现商业洞察?-基于Excel BI

作者 CDA 数据分析师 一套完整的 BI 报表应该至少具备以下四个条件: 条件一:能够批量处理有一定规模的数据; 条件二:能够保证数据的时效性及准确性; 条...

24490
来自专栏数据派THU

独家 | 手把手教你学习R语言(附资源链接)

作者:NSS 翻译:杨金鸿 术语校对:韩海畴 全文校对:林亦霖 本文约3000字,建议阅读7分钟。 本文为带大家了解R语言以及分段式的步骤教程! 人们学习R语言...

30470
来自专栏目标检测和深度学习

github最热门的Python项目:深度学习占半壁江山

本篇文章为大家盘点了1月份最热门的Python 项目,本月最热门的开源项目中,深度学习相关的开源项目占据了半壁江山,让我们一起来看下吧! 1 FastPhoto...

328100
来自专栏CVer

TensorFlow 2.0 要来啦!

自 2015 年开源发布以来,TensorFlow 已成为全球应用最广泛的机器学习框架,可满足广泛的用户和用例需求。在此期间,TensorFlow 随着计算硬件...

13220
来自专栏腾讯移动品质中心TMQ的专栏

【Android场景化性能测试】UI流畅度篇

承接《Android场景化性能测试-方向与框架篇》,本篇详述UI流畅度的测试方法,重点在于获得流畅度SM数据之后,如何利用好。

89440
来自专栏互联网杂技

2018年3月份GitHub上最热门的Python项目:深度学习占半壁江山

https://github.com/NVIDIA/FastPhotoStyle Star 5978

11520

扫码关注云+社区

领取腾讯云代金券