浅论甲基化分析的坑

很久没有更公众号,是因为真的好忙,

也非常希望能中跑完差异甲基化分析流程后,给大家上一个系统全面的总结经验帖,可是,发现一个原来这行大家都熟知的“坑”。

之所以说众所周知,是因为每每问一个人,对方都会说,是这样的,目前没有解决的办法。

对于差异甲基化分析,精神洁癖的我,用线性回归找到10来个位点,用方差分析找到2个位点,用less power的t test和wilcox rank sum test找到了百来个位点。

我的问题是,如果同样的重复实验,我用同样的方法,差异的应该也还是那些位点,这样的replicate又能有什么生物学意义呢。

于此,我想归根结底是因为一个问题,统计学算法的滥用,t检验的时候,总体应该服从正态分布,这点往往被忽略。所以构造t统计量真的合适吗?

beta值具有异方差的缺陷,那么,当改为M值的时候,这样的变换是否会导致线性相关的丢失呢?

而明明有用得很好的寻找潜在因子的sva算法,人们却并没有那么广泛的应用,探讨了好几个人,普遍认为sva就算找出来也很难解释,于是,线性回归等到了广泛的应用,因为其相当好解释。可是,同理在构建snp和gene exp的关系的时候,随着gtex项目的普及,人们喜欢采用基于贝叶斯模型的PEER因子,而贝叶斯算法是有前提的,有时候数据真的迭代n年都不会收敛,此刻我们是否该怀疑我们对总体分布的假设呢?另一件事我也很纳闷,为什么找eqtl一来也是线性回归呢?

然而在采用线性回归模型的时候,

自变量和因变量之间是否线性相关

所有因素是否独立。

我想就会涉及混合线性回归模型似乎更为合理。但是在每次做了线性回归后,文章里也并没有看见多少对于回归参数的t检验、f检验或相关系数检验的实施。

在解决差异甲基化分析的途中,我不禁开始思考差异表达基因,用各种test,假定rna-seq服从正态分布,然而之前看一个学数学的大神的文章,rna-seq似乎更加符合广义逆高斯分布。

用不同的方法之前,是否确认过自己的方法是准确的,是适合的?而是直接就用,因此,此刻就有朋友说,科研好多坑,已对科研无兴趣。我想,这时候更应该是找出更加适合的分布和算法去解释这件事,而不是人云亦云的去跟随。坑源自于统计学方法的滥用,不该失去兴趣,而该努力去解释好并解决这件事。

最近被科研卡住了,甲状腺也有些不太舒服,冬天,体内激素变换的时候,真的觉得嗓子很难受,不喜欢跟人说话,早些年,有些独处恐惧症,一个人呆着会自己莫名其妙的哭,听闻朋友说,她们也有这样的情况,我想这就是博士病吧。另一个朋友给我说,要学会定期释放自己的情绪,该玩就玩。现在是觉得,我要是在工作时间干了大于三件与工作无关的事情,比如说,上网交电费,我就会觉得很心慌。而如果一片浮躁,却拿出一本书或一篇文献看懂了,又会觉得内心踏实。

身边优秀的人太多,世界各地顶级学校毕业的硕博,永远比你努力。

比你大一两届的学长已经成为国内大学的教授。

而我,还在拾起一步步统计学知识中游泳,以自己的速度前行。

内心平静的时候,我的心告诉我,保持自己的速度前进就好,不去看别人,只要自己的心在工作上,就一定能专注的走远。

很开心的一件事,经过从小到大的努力,有一份每天早上醒来让我觉得很有干劲的工作,有挑战,每个项目都能学习和强化各方面的能力的工作。

以此文章说明,愿科研热情永恒。

但愿刨根问底,找出自己的成就感。

欢迎踊跃吐槽~

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180103G08EGC00?refer=cp_1026

扫码关注云+社区