推荐语: 育种数据分析的效益很高,也存在一些难点。这个PPT讲了育种数据计算中现状以及挑战,讲了动物育种中效率的提升依赖于工具的进步,这些工具目前的进一步发展也存在一些挑战. 很全面的讲述。文字中,我加上了自己的理解和翻译。
https://www.interfacesymposia.org/I03/I2003Proceedings/MisztalIgnacy/MisztalIgnacy.presentation.pdf
题目及作者
人工受精和胚胎移植在动物育种中广泛应用,一个公牛可以有超过10万个雌性后代(奶牛)。工业化养殖(牧场, 养猪场, 农作物机械化)时代,育种的效益更加明显,任何细节的优化,效率的提升,放大规模后都会产生显著的效益。
现代化育种需要的条件:基因组信息、大量的表型数据、系谱数据。还包括环境数据, 家系数据等等,用于预测基因组育种值。
奶牛 显著的特点是精液市场全球化,优秀的公牛,后代从产奶,肉质, 蛋白产量,料肉比都有巨大的效益。
肉牛
家禽 家禽育种,特别是鸡育种,规模非常大,而且分层育种结果,比如三交种,五交种。最终使用的是最后的杂交种,一个个体有效的记录可以追溯20万只鸡,考虑各种经济性质比如产蛋,肉质等等。
猪育种
典型的公司, PIC.
之前,我以为作物育种中,先锋,孟山都可望而不可及,中国种业落后。了解动物育种后,更让人绝望。
植物还可以直接使用自交系,可以使用二环系进行改良,本地资源由于环境的特殊适应性,国外品种还不能一统天下。
但是动物育种,都是在猪场,鸡场中养殖,工业化养殖环境更可控,不同于植物可以自交,动物的种质更难利用。
牛奶产量提升了2倍,鸡的成熟周期缩短了2倍,饲料转化率提升了2倍。效果十分显著
基因型育种值的构成
动物模型的构成
混合线性模型的矩阵形式
不同的模型
两大挑战:
稀疏矩阵, hash结构, 指向列和值的行指针
高效储存的方式, 指针
求解方程组的方法:PCG
方差组分估算, 迭代方法
如何估算方差组分?
REML
REML的挑战
贝叶斯
贝叶斯的挑战
SAS不能处理大数据混合模型
其它软件:
平台
Windows和Linux, Unix都可以. 但是并行和向量化运算不是最重要的.
随机回归模型, 应该是最复杂的计算量最大的模型, 研究显示, 相比较于并行化运算, 标量优化(Scalar optimization)更重要.
不同的语言, 不同的算法, 结果可能是半个小时和半年的差别, 时间和内存的提升是线性的, 算法的提升确实指数型的. 好的工具加上好的算法才能事半功倍.
数量遗传的其它模型 这些模型, 未来也可以用于基因组选择育种: