为什么要学习编程?

帮同学处理一下他从公司拿到的差异分析结果,当然,给我的是Excel表格,老规矩,导出csv然后读入R,然后准备顺手画个火山图,做个GO/KEGG富集分析。下意识的看了看数据结构,然后顺手按照基因名排序了一下,哈哈哈~

这是一个大坑。

就因为这个还有两篇文章;

  • Mistaken Identifiers: Gene name errors can be introduced inadvertently when using Excel in bioinformatics 2004年
  • Gene name errors are widespread in the scientific literature 2016年

也有人在论坛上面发问,高达2K的阅读量: https://www.biostars.org/p/211861/

Some gene names start with APR/MARC/SEPT* etc default converted into date format.

我们生信技能树论坛也有人分享过: Excel-坑你的基因名没商量!

随意篡改20%的遗传学论文!
可就在今年8月份,三位科学家在《Genome Biology》期刊上发表论文,称他们发现20%的遗传学论文包含了Excel软件导致的基因名转换错误。他们对论文进行的扫描显示,科学文献中的基因名错误十分普遍,在默认设置下Excel软件会将基因的名字转换成日期或浮点数。
举例来说,基因名字SEPT2和MARCH1会被分别转换成2-Sep和1-Mar;标识符2310009E1被转换成浮点数2.31E+13。

但是,如果你会编程的话,事情就很简单咯

a$Gene.Symbol=unlist(lapply(as.character(a$gene_assignment),function(x){trimws(strsplit(x,'//')[[1]][2])}))

编辑:jimmy

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2018-02-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI派

开篇词 | 如何轻松玩转Pandas呢?

在今日,Python 俨然已成为一门非常受欢迎的语言,在掌握了Python后,你是不是已经发现了 Python 非常有意思呢?

581
来自专栏机器之心

业界 | 苹果博客:高效可扩展的规模化、多样化隐私学习

3366
来自专栏逍遥剑客的游戏开发

VR下双手与物体的交互

3286
来自专栏恰同学骚年

Unity3D游戏开发初探—2.初步了解3D模型基础

  简而言之,3D模型就是三维的、立体的模型,D是英文Dimensions的缩写。

773
来自专栏CSDN技术头条

基于OpenGL ES的深度学习框架编写

背景与工程定位 背景 项目组基于深度学习实现了视频风格化和人像抠图的功能,但这是在PC/服务端上跑的,现在需要移植到移动端,因此需要一个移动端的深度学习的计算框...

2898
来自专栏iOSDevLog

iOS ARKit教程:用裸露的手指在空中画画

最近,Apple公布了名为ARKit的新增强现实(AR)库。对于许多人来说,它看起来只是另一个优秀的AR库,而不是一个值得关注的技术破坏者。但是,如果你看一下过...

843
来自专栏数据科学与人工智能

【知识】使用Python来学习数据科学的完整教程

编者按:Python学习和实践数据科学,Python和Python库能够方便地完成数据获取,数据探索,数据处理,数据建模和模型应用与部署的工作,对于数据科学工作...

3837
来自专栏生信技能树

如何通过Google来使用ggplot2可视化

今天是大年初二,这篇文章我只想传达一点: 没有什么菜鸟级别的生物信息学数据处理是不能通过Google得到解决方案的,如果有,请换个关键词继续Google! 第一...

2788
来自专栏算法+

浮点数据有损压缩算法 附完整C代码

思路比较简单,就是做一个2D颜色映射表进行插值实现,一般是512*512*3 的颜色表,

4064
来自专栏数据小魔方

图表案例——网易数独经典图表仿作

大家平时看新闻的时候是不是都喜欢看那种多图少字、图文并茂的呀,冗长的文字看着烦死了,还累眼睛(躺枪的举手我看看~_~) 哈哈其实这很正常,白天累死累活干一天,看...

3464

扫码关注云+社区