【生信菜鸟经】漫谈如何跨越摆在生信入门路上的三大障碍

如何跨越摆在生信入门菜鸟面前的三大障碍的。

第一大障碍:透析数据背后的生物学知识,完成从测序数据到生物问题的连接;

我的做法: 通过谷歌百度了解fasta、fastq格式是什么?想必维基百科上的fastq格式介绍是每位生信菜鸟入门必看的吧~(度娘和谷兄是我一辈子的老师,感激不尽,感激不尽!!!)

基于此,我在论坛给大家列出了十几个常用的生信文件格式:http://www.biotrainee.com/forum-2-1.html

接着,通过陈魏学基因(或者其它中文动画讲解资料)了解测序原理、方法,视频反复的看,个人觉得具体细节比较难记。反正我知道提取的DNA是怎样变成手头上的ATCG这样的测序数据的。自然而然,就知道测序数据以及其它文件代表了什么生物知识了。 (测序原理啥的完全记不住啊,脑容量是硬伤,我要扩容去~)

第二大障碍:掌握一门编程语言完成对数据的任意转换,利用现成的工具-软件和数据库来掌握一门完整的数据分析流程,达到一通百通;

我的做法:

一个月看完鸟哥的私房菜,安装系统以及Linux上面的一些操作基本上没什么问题了。 一个月看完perl小骆驼,完成十道生信实战题,顺利出师,算是掌握了一门编程语言。(到现在没有进步,反而倒退了~让我哭会~)

shell、Perl脚本和R语言的学习基础知识都一样,没什么特别推荐的书籍,但是推荐每一个至少看3本以上,囫囵吞枣的了解基础知识就好,在实践中应用你看到的基础语法。

然后,我就按照某生信服务公司的培训班课表学习了一些软件,捣鼓了fastqc、BWA、samtools、IGV等软件,基本上学会了在Linux上安装各种类型的软件。期间还穿插了学习R语言,入了个门,会装包、看得懂代码、会运行而已。(当初的我软件装到奔溃,参数看到眼花,回想起来都是辛酸泪啊~)

接着,通过生信菜鸟团看到宾夕法尼亚大学的应用生物信息学课程,系统地学习了生信数据分析,学会了如何开展一个生信项目。(这个课程非常棒,感谢乐于分享的群主!!)

在论坛可以看到所有课程列表:http://www.biotrainee.com/forum-100-1.html

最后,去年九月份确定自己的研究方向后,拿到第一批宏基因组数据练手,目前还在建立自己的数据分析流程(论独立搭建一个pipeline的重要性,让我知道原来我还是那么菜,要学的东西很多很多。)

第三大障碍:充分理解你的数据分析结果并给出可靠的结论;

我还没跨越这个障碍,就拿我看本领域的相关文献来说,如果我最后分析湖泊水体微生物群体的宏基因组数据,在讨论物种多样性及功能这个问题似乎要回归生态学。所以,我可能需要修炼一下内功,了解一下生态学知识。(待我要出成功的时候,再来补充,嘻嘻~)

对找差异基因来说,该设定什么样的阈值来判别是否显著差异呢?最后得到的显著差异基因个数是多少才算是合理范围呢?foldchange和P值的分布应该是怎么样的呢?哪些基因是应该差异的,哪些是不可能差异的呢?

对找变异来说,什么样的突变频率是正常的呢?跟dbSNP或者千人基因组计划比较起来应该有怎么样的overlap呢?纯合杂合比例有范围吗?突变上下文有意义吗?突变发生的部位有什么样的规律,大概哪种结果你能一眼就判断出是错的呢?

对于表达调控来说,调控区域的数量级应该是多少呢?不同调控元件的调控性质在数据结果如何体现?不同批次实验差异应该很大吗?不同细胞组织或者生长环境状态的区别很大吗?该如何在数据里面体现出来呢?

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-02-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯数据中心

集腋可否成裘?——浅谈IDC余热利用

如果把数据中心视作一套规模巨大的能源转换的设备,它在能量转化的过程中会释放出大量的余热。逾98%的电力损耗变成了低质量的热能,那么这些余热是否可以再利用,又如何...

3.1K7
来自专栏互联网杂技

有趣的算法、逻辑面试题

1、A、B两人分别在两座岛上。B生病了,A有B所需要的药。C有一艘小船和一个可以上锁的箱子。C愿意在A和B之间运东西,但东西只能放在箱子里。只要箱子没被上锁,C...

2886
来自专栏量子位

我潜入清华神秘实验室,用脑机接口写了两句诗

1149
来自专栏AI派

还没准备好数据呢,为什么要着急用算法呢

开始之前,通知下我的读者,随着订阅读者越来越多,为了对读者们负责,有以下几件事情需要告知下:

1066
来自专栏GopherCoder

分享"一只爬虫"

1486
来自专栏牛客网

Android应用工程师面经 - OPPO校招提前批

面试官是Android转到Java后台的,开始自我介绍,看我项目有Java后台相关的,就问我为什么不报Java后台,为什么选择Android。

831
来自专栏大数据文摘

小白学数据之常用Python库“小抄表”(附小抄表PDF下载)

1393
来自专栏腾讯大讲堂的专栏

如何才能准确测量 APP 的功耗?

引言:电量消耗控制一直是困扰所有APP开发者的一大难题,其中又以Android平台尤甚。业界同行为此做了非常多的研究与尝试,腾讯自然也不例外。本周大讲堂继续推出...

2556
来自专栏点点滴滴

Western Blot一抗的选择

2052
来自专栏机器人网

知识点:工业机器人的组成和分类

  (一)工业机器人的组成   工业机器人一般由操作机、驱动装置和控制系统等部分组成。 ?  1.操作机。也称执行机构,由末端执行器、手腕、手臂和机座组成。...

2643

扫码关注云+社区