今天写一篇回答,总结一下目前的想法。
这个是星球内问题:
先说两个趋势:
趋势1:
农业的数据分析以后会越来越重要,因为分子数据的落地,包括分子标记辅助、GWAS和GS的应用,特别是基因组选择(GS)的落地,使得育种的效率大大提升,以后使用数据去育种将不再是纸面上冠冕堂皇的话,而是事实。
趋势2:
新兴的机器学习、神经网络等算法将会进入到育种数据分析中来,这一块的应用,还是要育种从业人员自己学习掌握,至少会调包,靠别人不如靠自己,要拥抱新技术,使用新技术。
痛点在哪里?
现有的教育环节中,对这一块涉及极少,我们学习的生物统计都是基于线性模型的,T检验+方差分析+回归分析,甚至连聚类分析和主成分分析都没有包含,而育种中的数据分析框架主要是混合线性模型+贝叶斯+机器学习,这些内容很偏,但是也很深。学起来相当吃力。
统计是个拦路虎,编程则是道中狼,很多统计不需要细究会用就行,而会用就需要会编程,Excel和SPSS那种鼠标点点点的已经out了,R和Python以及Julia才是王道,编程+Linux系统是标配,对于非计算机背景的我们,确实很头大。
另外一个就是数量遗传学,如果打开植物的数量遗传学、玉米的数量遗传学,什么F1群体、F2群体、BC1群体,各种方差分解,公式推导,都是老掉牙很繁琐的东西,一学就放弃,一看就头晕。动物的数量遗传学则是矩阵运算、贝叶斯抽样一看就是劝退的内容。明明是贴地气的农学,却要和高大上的金融肩并肩。
应该怎么做?
我读研究生时,本科时学习的生物统计早已经还给了老师,两眼一抹黑,我的学习路径是这样的,将一些弯路去掉,给出最快的路径。
1,通过Python语言学习编程,入门编程。后面的机器学习和神经网络是个非常好的平台。
2,通过R语言学习生物统计,包括传统方差分析、回归分析,也包括聚类、主成分和混合线性模型。
3,通过遗传评估软件学习数量遗传学,我是学习ASReml软件,也可以是BLUPF90,DMU等软件,软件的说明文档是上好的学习教程。
注意:
学习的过程,先要跑起来,然后再理解。切记看书百遍不动手,敲代码重演结果,看报错调整代码很重要,在实践中成长。