前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >R语言实战——Nature Neuroscience的十年(一)

R语言实战——Nature Neuroscience的十年(一)

作者头像
一只羊
发布2019-07-27 18:55:03
5310
发布2019-07-27 18:55:03
举报
文章被收录于专栏:生信了生信了生信了

前言

学习R语言有半年时间了,一直想找个机会找个小项目练练手,所以才有了这篇文章。

目的

对《Nature Neuroscience》杂志2009-2018年的研究文章进行可视化初探。
主要分为以下几个部分:
1. 基础统计及可视化
2. 进一步统计及可视化
3. 主要国家比较及可视化
4. 热词统计及可视化
5. 对接收时间的统计建模及特征选择
(截至发文才完成第1和第2部分,其余部分只能有机会再做)

数据来源

从Nature杂志官网搜索文章,搜索参数为:
journal: neuro
subject: biological-sciences/health-sciences
article_type: research, review, protocol(不包括Introduction, Editorial)
time_range: 2009-2018

说明

1. 中国(港澳台地区)与中国大陆合并计算。
2. 如果不做特别说明,日期默认按照发表日期(Publlish Date)统计。

不足

1. 数据缺失或不规范为数据分析带来偏差。比如国家、省份、城市名称前后不一致或缺失。
2. 对NA的处理还不够完善。什么时候该去除NA是要仔细考量的。
3. 有些作者的英文名是重合的,计算时没有做区分。
4. 文章数相同的作者排名是按照姓名的字典序排序的。
5. 没有统计标准差。
6. R作图的一些细节还需要改善。
7. 实现的代码虽然经过简化,但还是有些冗余。
8. 还有很多有意思的东西限于时间经历和篇幅就暂不研究了。

声明

本文仅是个人练习的结果,肯定有谬误的地方,不具有任何参考价值,那些花里胡哨的话不要乱了心!

第一部分:基础统计及可视化

导入数据

数据预处理

观察数据
'data.frame':   2575 obs. of  21 variables:
$ date       : chr  "2018-12-31" "2018-12-17" "2018-12-17" "2018-12-17" ...
$ title      : chr  "Panoptic imaging of transparent mice reveals whole-body neuronal projections and skull–meninges connections" "TDP-43 extracted from frontotemporal lobar degeneration subject brains displays distinct aggregate assemblies a"| __truncated__ "Efficient coding of subjective value" "Invasion of white matter tracts by glioma stem cells is regulated by a NOTCH1–SOX2 positive-feedback loop" ...
$ type       : chr  "Research" "Research" "Research" "Research" ...
$ magzine    : chr  "Nature Neuroscience" "Nature Neuroscience" "Nature Neuroscience" "Nature Neuroscience" ...
$ volume     : int  NA 22 22 22 22 22 22 22 22 22 ...
$ startPage  : int  1 65 134 91 120 57 78 37 106 25 ...
$ endPage    : int  11 77 142 105 133 64 90 46 119 36 ...
$ abstract   : chr  "Analysis of entire transparent rodent bodies after clearing could provide holistic biological information in he"| __truncated__ "Accumulation of abnormally phosphorylated TDP-43 (pTDP-43) is the main pathology in affected neurons of people "| __truncated__ "Preference-based decisions are essential for survival, for instance, when deciding what we should (not) eat. De"| __truncated__ "Early invasive growth along specific anatomical structures, especially the white matter tract, is regarded as o"| __truncated__ ...
$ receiveDate: chr  "2018-04-01" "2018-09-10" "2018-01-20" "2018-04-06" ...
$ reviseDate : chr  "" "" "" "" ...
$ acceptDate : chr  "2018-11-21" "2018-11-14" "2018-11-13" "2018-10-31" ...
$ author     : chr  "Ruiyao Cai|Chenchen Pan|Alireza Ghasemigharagoz|Mihail Ivilinov Todorov|Benjamin F<U+00F6>rstera|Shan Zhao|Hars"| __truncated__ "Florent Laferrière|Zuzanna Maniecka|Manuela Pérez-Berlanga|Marian Hruska-Plochan|Larissa Gilhespy|Eva-Maria Hoc"| __truncated__ "Rafael Polanía|Michael Woodford|Christian C. Ruff" "Jun Wang|Sen-Lin Xu|Jiang-Jie Duan|Liang Yi|Yu-Feng Guo|Yu Shi|Lin Li|Ze-Yu Yang|Xue-Mei Liao|Jiao Cai|Yan-Qi Z"| __truncated__ ...
$ nauthor    : int  22 23 3 22 4 10 18 17 20 15 ...
$ ncoauthor  : int  2 2 1 4 1 1 3 1 2 1 ...
$ corresp    : chr  "Ali Ertürk" "Magdalini Polymenidou" "Rafael Polanía|Christian C. Ruff" "Xiu-Wu Bian|Shi-Cang Yu" ...
$ ncorresp   : int  1 1 2 2 1 2 2 1 3 2 ...
$ institute  : chr  "Ludwig-Maximilians University Munich;Graduate School of Systemic Neurosciences Munich|Ludwig-Maximilians Univer"| __truncated__ "University of Zurich|University of Zurich|University of Zurich|University of Zurich|University of Zurich|Univer"| __truncated__ "University of Zurich;ETH Zurich;Columbia University|Columbia University|University of Zurich" "Army Medical University (Third Military Medical University);Army Medical University (Third Military Medical Uni"| __truncated__ ...
$ city       : chr  "Munich;Munich|Munich;Munich|Munich|Munich;Munich|Munich|Munich|Munich|Munich|Munich|Munich;Munich|Munich|Copenh"| __truncated__ "Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|London;London|London;London|London;London"| __truncated__ "Zurich;Zurich;New York|New York|Zurich" "Chongqing;Chongqing|Chongqing|Chongqing;Chongqing|Chongqing|Chongqing;Chongqing|Chongqing|Chongqing;Chongqing|C"| __truncated__ ...
$ province   : chr  "Munich;Munich|Munich;Munich|Munich|Munich;Munich|Munich|Munich|Munich|Munich|Munich|Munich;Munich|Munich|Copenh"| __truncated__ "Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|Zurich|London;London|London;London|London;London"| __truncated__ "Zurich;Zurich;NY|NY|Zurich" "Chongqing;Chongqing|Chongqing|Chongqing;Chongqing|Chongqing|Chongqing;Chongqing|Chongqing|Chongqing;Chongqing|C"| __truncated__ ...
$ country    : chr  "Germany;Germany|Germany;Germany|Germany|Germany;Germany|Germany|Germany|Germany|Germany|Germany|Germany;Germany"| __truncated__ "Switzerland|Switzerland|Switzerland|Switzerland|Switzerland|Switzerland|Switzerland|Switzerland|Switzerland|Swi"| __truncated__ "Switzerland;Switzerland;USA|USA|Switzerland" "China;China|China|China;China|China|China;China|China|China;China|China;China|China;China|China;China|China|Chi"| __truncated__ ...
$ address    : chr  "Institute for Stroke and Dementia Research, Klinikum der Universit<U+00E4>t München, Ludwig-Maximilians Univers"| __truncated__ "Institute of Molecular Life Sciences, University of Zurich, Zurich, Switzerland|Institute of Molecular Life Sci"| __truncated__ "Zurich Center for Neuroeconomics (ZNE), Department of Economics, University of Zurich, Zurich, Switzerland;Deci"| __truncated__ "Institute of Pathology and Southwest Cancer Center, Key Laboratory of the Ministry of Education, Southwest Hosp"| __truncated__ ...
转换数据类型
看各列是否有NA
       date       title        type     magzine      volume   startPage
         0           0           0           0           1           0
   endPage    abstract receiveDate  reviseDate  acceptDate      author
         0           0          87        2574          87           0
   nauthor   ncoauthor     corresp    ncorresp   institute        city
         0           0           9           0           0           0
  province     country     address
         0           0           0 
删除重复数据
原来共有多少行:
[1] 2575
删除后还有多少行:
[1] 1847
添加文章序号

杂志近N年的发文数、发文类型分布

看看每年的发文数变化

杂志近N年一篇文章的标题字数

标题是不是越来越长呢?

杂志近N年一篇文章的平均页数

多盼望两三页就能搞定论文啊!
(暂不统计缺失数据(NA)的比例)

杂志近N年一篇文章的接收时间

新年愿望:当天发,当天收~
(暂不统计缺失数据(NA)的比例)

杂志近N年一篇文章的平均作者数

师兄师姐帮帮忙,师弟师妹挂挂名~
(暂不统计缺失数据(NA)的比例)

杂志近N年一篇文章的共一作者数

分你一杯羹!
(暂不统计缺失数据(NA)的比例)

杂志近5年一篇文章的通讯作者数

报告老板,文章发啦!
(暂不统计缺失数据(NA)的比例)

一个作者发了几篇文章

有一篇就是人生赢家了,嘿嘿嘿…

一个作者发了几篇一作(包括共一)

跟别人合作也是不错的~

一个作者发了几篇通讯

老板棒棒的!

一个国家发了几篇文章

都在烧钱啊

一个机构发了几篇文章

拿经费拿到手软

近N年一篇文章平均有几个国家参与

地球是个村嘛

近N年一篇文章平均有几个机构参与

小伙伴一起玩!

发文数最多的作者

计算方式为平均值,即一篇文章每位作者的贡献度是一样的。暂时以每人一篇计算。
围观大牛

发文数最多的一作(包括共一)作者

围观希望之星

发文数最多的通讯作者

围观大Boss

发文数最多的国家

明年留学就去那

发文数最多的机构

知道博后去哪里了

发文数最多的中国省份

和经济发展程度有关系吗?
质控:有多少中国省份缺失或者没有转换成中文(计算文章比例)
缺失比例:
没有转换成中文比例

发文数最多的中国城市

质控:有多少中国城市缺失或者没有转换成中文(计算文章比例)
缺失比例:
没有转换成中文比例

发文数最多的中国机构

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-02-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信了 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
    • 前言
      • 学习R语言有半年时间了,一直想找个机会找个小项目练练手,所以才有了这篇文章。
    • 目的
      • 对《Nature Neuroscience》杂志2009-2018年的研究文章进行可视化初探。
      • 主要分为以下几个部分:
      • 1. 基础统计及可视化
      • 2. 进一步统计及可视化
      • 3. 主要国家比较及可视化
      • 4. 热词统计及可视化
      • 5. 对接收时间的统计建模及特征选择
      • (截至发文才完成第1和第2部分,其余部分只能有机会再做)
    • 数据来源
      • 从Nature杂志官网搜索文章,搜索参数为:
      • journal: neuro
      • subject: biological-sciences/health-sciences
      • article_type: research, review, protocol(不包括Introduction, Editorial)
      • time_range: 2009-2018
    • 说明
      • 1. 中国(港澳台地区)与中国大陆合并计算。
      • 2. 如果不做特别说明,日期默认按照发表日期(Publlish Date)统计。
    • 不足
      • 1. 数据缺失或不规范为数据分析带来偏差。比如国家、省份、城市名称前后不一致或缺失。
      • 2. 对NA的处理还不够完善。什么时候该去除NA是要仔细考量的。
      • 3. 有些作者的英文名是重合的,计算时没有做区分。
      • 4. 文章数相同的作者排名是按照姓名的字典序排序的。
      • 5. 没有统计标准差。
      • 6. R作图的一些细节还需要改善。
      • 7. 实现的代码虽然经过简化,但还是有些冗余。
      • 8. 还有很多有意思的东西限于时间经历和篇幅就暂不研究了。
    • 声明
      • 本文仅是个人练习的结果,肯定有谬误的地方,不具有任何参考价值,那些花里胡哨的话不要乱了心!
  • 第一部分:基础统计及可视化
    • 导入数据
      • 数据预处理
        • 观察数据
        • 转换数据类型
        • 看各列是否有NA
        • 删除重复数据
        • 添加文章序号
      • 杂志近N年的发文数、发文类型分布
        • 看看每年的发文数变化
      • 杂志近N年一篇文章的标题字数
        • 标题是不是越来越长呢?
      • 杂志近N年一篇文章的平均页数
        • 多盼望两三页就能搞定论文啊!
        • (暂不统计缺失数据(NA)的比例)
      • 杂志近N年一篇文章的接收时间
        • 新年愿望:当天发,当天收~
        • (暂不统计缺失数据(NA)的比例)
      • 杂志近N年一篇文章的平均作者数
        • 师兄师姐帮帮忙,师弟师妹挂挂名~
        • (暂不统计缺失数据(NA)的比例)
      • 杂志近N年一篇文章的共一作者数
        • 分你一杯羹!
        • (暂不统计缺失数据(NA)的比例)
      • 杂志近5年一篇文章的通讯作者数
        • 报告老板,文章发啦!
        • (暂不统计缺失数据(NA)的比例)
      • 一个作者发了几篇文章
        • 有一篇就是人生赢家了,嘿嘿嘿…
      • 一个作者发了几篇一作(包括共一)
        • 跟别人合作也是不错的~
      • 一个作者发了几篇通讯
        • 老板棒棒的!
      • 一个国家发了几篇文章
        • 都在烧钱啊
      • 一个机构发了几篇文章
        • 拿经费拿到手软
      • 近N年一篇文章平均有几个国家参与
        • 地球是个村嘛
      • 近N年一篇文章平均有几个机构参与
        • 小伙伴一起玩!
      • 发文数最多的作者
        • 计算方式为平均值,即一篇文章每位作者的贡献度是一样的。暂时以每人一篇计算。
        • 围观大牛
      • 发文数最多的一作(包括共一)作者
        • 围观希望之星
      • 发文数最多的通讯作者
        • 围观大Boss
      • 发文数最多的国家
        • 明年留学就去那
      • 发文数最多的机构
        • 知道博后去哪里了
      • 发文数最多的中国省份
        • 和经济发展程度有关系吗?
        • 质控:有多少中国省份缺失或者没有转换成中文(计算文章比例)
        • 缺失比例:
        • 没有转换成中文比例
      • 发文数最多的中国城市
        • 质控:有多少中国城市缺失或者没有转换成中文(计算文章比例)
        • 缺失比例:
        • 没有转换成中文比例
      • 发文数最多的中国机构
      相关产品与服务
      NAT 网关
      NAT 网关(NAT Gateway)提供 IP 地址转换服务,为腾讯云内资源提供高性能的 Internet 访问服务。通过 NAT 网关,在腾讯云上的资源可以更安全的访问 Internet,保护私有网络信息不直接暴露公网;您也可以通过 NAT 网关实现海量的公网访问,最大支持1000万以上的并发连接数;NAT 网关还支持 IP 级流量管控,可实时查看流量数据,帮助您快速定位异常流量,排查网络故障。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档