你分析数据的时候,注意数据库更新日期了吗?-掐架的额外收获

(点文字会分别跳转到有意思的帖子上,全体学霸都关注了Y叔哦~)

你昨天才做的分析,可能是几年前的结果!

》这篇文章给大家敲了警钟,各种各样的web-server,要小心看有没有维护更新,有些是五年十年都不更新的,十分可怕。文章虽然讲的是富集分析,但其它分析工具你同样需要小心。

当然并不是说独立的软件/软件包就一定靠谱,如果软件自己打包了数据,同样要注意数据是否有更新,而如果数据不打包在软件里,而是在线获取,你同样也该留一下心。这也是clusterProfiler做富集分析的优势所在,KEGG数据是在线的,永远是最新的,而GO的数据不在软件包里,而依赖于别的数据包,而这些数据包是社区维护的(相对而言,个人的维护比较难以为继),就确保了数据一直在有更新维护的。

Bioconductor每半年发行一次,注释包同样每半年更新一次,所以你用clusterProfiler做GO分析,你用的GO数据库不会说超过半年没更新,而不像有些公司给出的结果,落后于这个世界不是一年两年这么简单。

Bioconductor最近一次是10月31号发布的3.6版本,如果你还没更新,是时候看一个《Update R packages》然后来一发了,如果你更新了,也要再来一发,因为我上次的掐架,《请用事实怼我 -,-》,为社区带来了好多注释包的更新。

用clusterProfiler的好处还在于你是知道GO数据的更新日期的,上一次《请用事实怼我 -,-》的时候,我发现GO的数据还是2017年3月份的,证明10月份发布新版本的时候没更新,我就去Bioconductor说他们没更新,所以说是掐架带来的bonus,给社区做了点贡献。这也是我说的社区维护的好处,用户反馈是非常有用的,而且在帮助自己的同时,也帮助了大家。

在我的push之下,数据源终于更新到了2017年11月6号,当然KEGG的数据永远定格在2011年3月15号。

而《请用事实怼我 -,-》里某公司的分析,已经是几年都没更新了,肯定之前是有客户发现的,然而就像某公司员工出来掐一样,先是客户无知,他们肯定、必须是最新的。在打脸之后,说什么:可能跑流程的人没有改参数。尼马我还能说什么呢。而且做科学不是用数字说话,不是用事实说话,而是他做为某公司员工,要为「科学共同体」打call,厉害了,听得我一脸蒙逼。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181220B08OGF00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券