为什么要学习编程?

帮同学处理一下他从公司拿到的差异分析结果,当然,给我的是Excel表格,老规矩,导出csv然后读入R,然后准备顺手画个火山图,做个GO/KEGG富集分析。下意识的看了看数据结构,然后顺手按照基因名排序了一下,哈哈哈~

这是一个大坑。

就因为这个还有两篇文章;

  • Mistaken Identifiers: Gene name errors can be introduced inadvertently when using Excel in bioinformatics 2004年
  • Gene name errors are widespread in the scientific literature 2016年

也有人在论坛上面发问,高达2K的阅读量: https://www.biostars.org/p/211861/

Some gene names start with APR/MARC/SEPT* etc default converted into date format.

我们生信技能树论坛也有人分享过: Excel-坑你的基因名没商量!

随意篡改20%的遗传学论文!
可就在今年8月份,三位科学家在《Genome Biology》期刊上发表论文,称他们发现20%的遗传学论文包含了Excel软件导致的基因名转换错误。他们对论文进行的扫描显示,科学文献中的基因名错误十分普遍,在默认设置下Excel软件会将基因的名字转换成日期或浮点数。
举例来说,基因名字SEPT2和MARCH1会被分别转换成2-Sep和1-Mar;标识符2310009E1被转换成浮点数2.31E+13。

但是,如果你会编程的话,事情就很简单咯

a$Gene.Symbol=unlist(lapply(as.character(a$gene_assignment),function(x){trimws(strsplit(x,'//')[[1]][2])}))

编辑:jimmy

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2018-02-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员互动联盟

程序员找不到对象几种理由

1、栈和队列的区别是啥? 吃多了拉就是队列;吃多了吐就是栈 2、世界上最遥远的距离不是生与死,而是你亲手制造的BUG就在你眼前,你却怎么都找不到她。 3、《c+...

3408
来自专栏java一日一条

Java程序员的错

这些年来,在我见过的各种 Java 代码中,我发现这最大的问题是,写代码的人痴迷于把自己当作架构师。他们很喜欢这样,在我阅读他们的代码时,经常会发现这些代码与其...

713
来自专栏平凡文摘

只有程序员才看得懂的漫画

1023
来自专栏镁客网

只因4个基因发生突变,就导致8000万人患上强迫症?研究表明,这或许是真的!

1280
来自专栏iOSDevLog

iOS ARKit教程:用裸露的手指在空中画画

最近,Apple公布了名为ARKit的新增强现实(AR)库。对于许多人来说,它看起来只是另一个优秀的AR库,而不是一个值得关注的技术破坏者。但是,如果你看一下过...

723
来自专栏生信技能树

一篇文章学会ChIP-seq分析(下)

写在前面:《一篇文章学会ChIP-seq分析(上)》《一篇文章学会ChIP-seq分析(下)》为生信菜鸟团博客相关文章合集,共九讲内容。带领你从相关文献解读、资...

4627
来自专栏写代码的海盗

来自朝鲜的问候 golang入坑系列

鸿渐于陆 本想着写满十八式,但按照目前的进度来看,是很难凑够十八式了。所以还是那句话,量力而行,适可而止。能写多少就写多少,我没法保证看完这本golang脱口秀...

3115
来自专栏大数据挖掘DT机器学习

使用fasttext实现文本处理及文本预测

因为参加datafountain和CCF联合举办的大数据竞赛,第一次接触到文本预测。对比了一些模型,最终还是决定试一下fasttext。上手fasttext的...

1.2K6
来自专栏生信技能树

ARCHS4是目前最大的基因表达数据库

因此美国的科学家Alexander Lachmann等开发了一个ARCHS4(all RNA-seq and ChIP-seq sample and signa...

662
来自专栏小文博客

用C语言写贪吃蛇笔记-1

533

扫描关注云+社区