前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生信入门第1课

生信入门第1课

作者头像
DoubleHelix
发布2022-06-13 13:04:34
7820
发布2022-06-13 13:04:34
举报
文章被收录于专栏:生物信息云生物信息云

我写公众号的最初目的就是督促自己学习,分享一些教程,和专门搞生信的大佬们比起来,自己也就是菜鸟一枚,公众号更新也比较佛系,也不做推广,你能自行关注到,完全靠缘分。我就是分享一些生信基础的生信分析技能,以满足大家在科研工作中的生信需求。说实话,大家需要给你自己以定位,自己做纯生信的还是只是借助生信为大家在湿实验中提供思路,或者文章中添加一些生信内容。如果你是做纯生信,那也是分档次和研究方向的,如果只是分析别人的数据,比如预后模型这种,属于比较低端的水平。有的做开发,比如开发一个R包或者一些其他生信分析工具,又或者是建数据库,这些属于开发类。另外,这个也和研究领域有很大关系,植物的,人的,微生物的,是有区别的,当然,很多基础工具都差不多,但需要相关的知识背景。我自己主要是做药,癌症,所以我会的技能主要和自己研究方向相关的,我也不是什么都掌握,因为我觉得,具备基础知识储备后,自己用到什么就去现学现卖,而不是一下子学会很多东西等着以后用,我个人认为这是效率极其低下的。

这里按照我个人的学习经历和总结,让刚刚入门的你,能快速学习一些基础的生信技能,学到高水平我也做不到,因为我自己也觉得自己很菜的,但有一些经验可以分享给大家。

1.首先给自己一个定位,你学生信为了干什么?

如果你不是纯生信的,比如做一些药理,分子生物学等相关以实验为主,那么你学习生信主要还是做一个辅助,你可能注重的还是一些基础分析。

还有一种就是想快速出文章,纯数据分析的,这种我个人觉得不是长久之计。

如果你是做开发的,比如开发R包,新方法,搭建数据库等纯生信的方向。那么需要学习计算机方面的东西很多,比如开发数据库,前端(HTML+CSS+JavaScript)是需要学的,以及数据库等等。如果注重算法,那就需要补一补数学,尤其是统计学。【这个方向,我也还在不断的学习当中】,但是做这个方向的学生,实验室往往有这样的基因,有师兄师姐指路是比较好的。【我觉得这个方向需要有一个长期的规划,往往需要一个团队才能有更好的科研成果,比如搭建数据库,有人做前端,有人做后端】

2.需要学什么基础知识?

无论你是干啥的,只要是和生命科学有关的,很多基础知识是需要具备的【比如分子生物学,遗传学】,这里就不多说了。对于生物信息学,就算你不做生信,很多技术你也需要知道和了解,要不然你做实验都不知道可以用什么技术能解决什么问题。对于很多基础极其薄弱的同学来说,我极其推荐买一本下面这本书,生物信息学的教材很多,但我只推荐下面这本,很多技术的原理和很多基本概念都介绍的挺好的。也不需要多么认真仔细的看,扫一遍。【京东/当当,选择便宜的平台购买】。

3.是否需要学编程语言?

哪怕你不做纯生信,R语言是必须学习的,为什么?很多人就是想用别人的代码傻瓜似的运行,然后得出结果,这个过程往往会出现各种幺蛾子,会浪费你大部分的时间。何不自己花点时间系统的学习一下。另外,用别人的代码,你无法个性化分析,所以完全不靠谱。所以R语言必须学习,B站有很多视频教程,可以学习,当然我也有,感兴趣的可以参考文章【曾经付费的R语言语法视频教程现在免费学习了】学习。

4.还需要学什么编程语言?

前面说了,无论做什么,R必须学习,那么Python,Linux呢?如果你做算法或者开发的,看你个人选择,只用R也能解决问题,Python也可以不用学习,但是很多文章用的是Python写的,你也需要看的懂,关于这一点,如果自己有有长远的规划,又刚刚开始,那就学,先学python,再去了解R,因为编程语言很多都是相通的,学会Python,再去了解R,易如反掌,我当初学习R的时候就很快,因为我曾经学过Java,但我现在已经完全忘记,因为没用起来,所有学编程语言一定要用起来,经常写。Linux的话是需要学的。但对于不是纯生信的,你们注重下游数据分析,也没有太多追求,那就放弃也行吧,学R就够了,当然很多数据分析还是都需要在Linux上运行的,所以掌握基本的操作还是必要的,Linux的数据就鸟哥私房菜。

当然,要学好是需要花费很多时间的,只是掌握怎么使用,简单的操作,网上有很多快速入门的博客,可以搜索一下。

5.数据可视化

这一点,我曾经写过一篇文章说过,可以参考阅读一下【我有必要花大量时间去学习R语言绘图吗??

6.了解一些用于医学相关的基础分析

就是一些常见的分析,比如回归分析,这部分我有相关的教程,是基于R语言的,之前是付费,后期我整理好会免费分享到B站。目录可参考:R语言语法、绘图和数据分析教程

关于R相关的书籍,可以在群里问我一下,分享给你

7.其他数据分析技能

生信数据分析,其实几乎都是各种组学数据的分析,比如普通转录组,单细胞转录组、空间转录组,chip-seq,甲基化测序等,以及芯片数据。所以分析数据之前,需要去掌握这些技术背后的原理和相关背景知识。前期一定要先学习普通转录组,因为这个很常用。如果你是做非编码RNA的,那么可以学习相关的测序分析流程。当然有一些是芯片数据,都一起去了解,学习。对于其他的组学数据分析,就可以举一反三,看看综述,用什么软件,各种软件的优缺点以及适用于什么样的数据等等。然后,自己用的时候,再看相关教程自己跑,我自己觉得这样比较好,前提是你得理解这些组学数据分析背后到底再干什么事。为了部署不同分析环境,需要了解一下Anaconda。如果注重下游分析,有些也不需要上游分析,比如bulk转录组,一般自己测序后,测序公司都会给你可以直接用于下游分析的count数据和FPKM数据,就可以直接用R来分析。下游分析需要了解一些基础常见的,比如差异表达,GO富集,GSEA,WGCNA,免疫评估等。

8.进阶

其实,按照上面的流程学习,对于只是用做辅助的同学来说,已经很可以了。这个时候的你需要转变思维方式,不要简单的按常规分析思路,可以不同组合。另外,需要阅读高分文献,看看别人的分析思路,解决什么生物学问题,学会举一反三。需要不断强化自己的编程能力。比如下面的R书籍需要拜读。

对于要开发R包的,就要拜读下面书籍了。比较贵,原来我买的时候没有这么贵的。网上应该有电子版的。如果纯粹的写一个R包,我自己认为是没有太大意义的,最好的方式就是有新东西,顺便写了个R包,再厉害一点,再搭建在线分析平台,那就完美了,例如TIMER2这类似的平台。

对于其他的书籍可以参考之前的文章:这才是生信入门的书籍清单

要继续往高端路线走,那就是熟悉各种机器学习算法,背后的数学原理要搞清楚了,这就靠自己修行了,当然,有些实验室本身就是做机器学习,这和前面的也不冲突,只是注重的方向不一样了。我也在努力储备中。


以上是我的个人观点,不一定适合所有人,欢迎留言讨论。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-06-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MedBioInfoCloud 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档