【生信菜鸟经】漫谈如何跨越摆在生信入门路上的三大障碍

如何跨越摆在生信入门菜鸟面前的三大障碍的。

第一大障碍:透析数据背后的生物学知识,完成从测序数据到生物问题的连接;

我的做法: 通过谷歌百度了解fasta、fastq格式是什么?想必维基百科上的fastq格式介绍是每位生信菜鸟入门必看的吧~(度娘和谷兄是我一辈子的老师,感激不尽,感激不尽!!!)

基于此,我在论坛给大家列出了十几个常用的生信文件格式:http://www.biotrainee.com/forum-2-1.html

接着,通过陈魏学基因(或者其它中文动画讲解资料)了解测序原理、方法,视频反复的看,个人觉得具体细节比较难记。反正我知道提取的DNA是怎样变成手头上的ATCG这样的测序数据的。自然而然,就知道测序数据以及其它文件代表了什么生物知识了。 (测序原理啥的完全记不住啊,脑容量是硬伤,我要扩容去~)

第二大障碍:掌握一门编程语言完成对数据的任意转换,利用现成的工具-软件和数据库来掌握一门完整的数据分析流程,达到一通百通;

我的做法:

一个月看完鸟哥的私房菜,安装系统以及Linux上面的一些操作基本上没什么问题了。 一个月看完perl小骆驼,完成十道生信实战题,顺利出师,算是掌握了一门编程语言。(到现在没有进步,反而倒退了~让我哭会~)

shell、Perl脚本和R语言的学习基础知识都一样,没什么特别推荐的书籍,但是推荐每一个至少看3本以上,囫囵吞枣的了解基础知识就好,在实践中应用你看到的基础语法。

然后,我就按照某生信服务公司的培训班课表学习了一些软件,捣鼓了fastqc、BWA、samtools、IGV等软件,基本上学会了在Linux上安装各种类型的软件。期间还穿插了学习R语言,入了个门,会装包、看得懂代码、会运行而已。(当初的我软件装到奔溃,参数看到眼花,回想起来都是辛酸泪啊~)

接着,通过生信菜鸟团看到宾夕法尼亚大学的应用生物信息学课程,系统地学习了生信数据分析,学会了如何开展一个生信项目。(这个课程非常棒,感谢乐于分享的群主!!)

在论坛可以看到所有课程列表:http://www.biotrainee.com/forum-100-1.html

最后,去年九月份确定自己的研究方向后,拿到第一批宏基因组数据练手,目前还在建立自己的数据分析流程(论独立搭建一个pipeline的重要性,让我知道原来我还是那么菜,要学的东西很多很多。)

第三大障碍:充分理解你的数据分析结果并给出可靠的结论;

我还没跨越这个障碍,就拿我看本领域的相关文献来说,如果我最后分析湖泊水体微生物群体的宏基因组数据,在讨论物种多样性及功能这个问题似乎要回归生态学。所以,我可能需要修炼一下内功,了解一下生态学知识。(待我要出成功的时候,再来补充,嘻嘻~)

对找差异基因来说,该设定什么样的阈值来判别是否显著差异呢?最后得到的显著差异基因个数是多少才算是合理范围呢?foldchange和P值的分布应该是怎么样的呢?哪些基因是应该差异的,哪些是不可能差异的呢?

对找变异来说,什么样的突变频率是正常的呢?跟dbSNP或者千人基因组计划比较起来应该有怎么样的overlap呢?纯合杂合比例有范围吗?突变上下文有意义吗?突变发生的部位有什么样的规律,大概哪种结果你能一眼就判断出是错的呢?

对于表达调控来说,调控区域的数量级应该是多少呢?不同调控元件的调控性质在数据结果如何体现?不同批次实验差异应该很大吗?不同细胞组织或者生长环境状态的区别很大吗?该如何在数据里面体现出来呢?

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-02-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏积累沉淀

Hive2.0.0操作HBase 1.2.1报错解决

首先看错  org.apache.hive.service.cli.HiveSQLException: Failed to open new session: ...

2329
来自专栏听雨堂

想修改CSS

      下载了一个“通用”的CSS文件,本来想偷懒的,结果发现有问题,就是它用的颜色是变量定义的,无法识别。我又找不到在哪里可以定义。 BODY{     ...

20310
来自专栏飞扬的花生

日志帮助类

 1.代码 using System; using System.Collections.Generic; using System.Linq; using S...

1909
来自专栏阿炬.NET

c# datetime 格式化

2836
来自专栏C/C++基础

C#获取系统当前时间

ystem.DateTime currentTime=new System.DateTime(); 1.1 取当前年月日时分秒 currentTime=Sy...

1133
来自专栏互联网开发者交流社区

WinForm之窗体应用程序

1793
来自专栏海说

Java应用中常见的JDBC连接字符串(SQLite、MySQL、Oracle、Sybase、SQLServer、DB2)

Java应用中常见的JDBC连接字符串 Java应用中连接数据库是不可或缺的,于是便整理一些可能用到的JDBC的jar包及其相匹配的URL,以备日后查阅。 1)...

2700
来自专栏xingoo, 一个梦想做发明家的程序员

windows程序设计-第四章 system1.c

/*---------------------------------------------------- SYSMETS1.C -- System M...

23110
来自专栏张善友的专栏

Using sqlite with .NET

The other day I found that there is a .NET wrapper for sqlite. sqlite is a very ...

2258
来自专栏c#开发者

C# : row-clickable GridView and get and set gridview rows using JavaScript

Complete C# code: ---------------- using System; using System.ComponentModel; ...

2986

扫码关注云+社区