首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言宏基因组学统计分析学习笔记(第三章-3)

早在1897年,皮尔逊就警告说,在器官测量中使用两个绝对测量值的比值,可能会形成“伪相关”。自1920s以来,地质学的研究人员已经知道,使用标准的统计方法来分析成分数据可能会使结果无法解释。Aitchison认识到关于组成成分的每一个陈述都可以用成分的比率来表述,并开发出一套基本原理、各种方法、操作和工具来进行成分数据分析。其中,对数比变换方法被地质学、生态学等领域的统计学家和研究人员广泛接受,因为通过对数比变换,可以消除组成数据的样本空间(单纯性)受约束问题,并将数据投影到多元空间中。因此,所有可用的标准多元技术都可以再次用于分析成分数据。

01
您找到你想要的搜索结果了吗?
是的
没有找到

MP:精神疾病患者和正常发育人群皮层特征的共同模式

发育和精神病理学之间关系的神经生物学基础仍然不清楚。在这里,我们确定了一个在正常发育和一些精神神经疾病中共同的皮层厚度(CT)空间模式。主成分分析(PCA)被应用于Desikan-Killiany模板中的68个区域的CT,这些区域来自三个大规模的数据集,一共包括41,075个神经正常发育被试。PCA产生了一个大范围的主要空间主成分(PC1),并且这个结果是跨数据集可重复的。然后在一个包括14886名精神疾病患者和20962名健康对照组的7个ENIGMA疾病相关数据集中,健康成人被试的PC1与精神与神经疾病患者的CT差异模式进行了比较,正常成熟和衰老的被试来自于ABCD研究和IMAGEN发展研究的总共17697扫描,和ENIGMA寿命工作组的17075名被。同时还包含了艾伦人类脑图谱的基因表达数据。结果显示,PC1模式与在许多精神疾病中观察到的较低的CT之间存在显著的空间对应关系。此外,PC1模式也与正常成熟和衰老的空间分布模式相关。转录分析发现了一组包括KCNA2、KCNS1和KCNS2在内的基因,其表达模式与PC1的空间模式密切相关。基因富集分析表明,PC1的转录相关富集到多个基因本体类别,并从儿童后期开始,与青春期前到青春期的过渡过程中显著的皮层成熟和精神病理的出现相一致。总的来说,本研究报告了一种可重复的CT潜在模式,该模式捕获了正常大脑成熟和精神疾病谱系中皮层变化的区域间特征。PC1相关基因表达的青春期富集暗示了在青春期出现的精神疾病谱系的发病机制中神经发育的中断。

01

PNAS:描绘自杀想法的时间尺度

本研究旨在利用实时监测数据和多种不同的分析方法,确定自杀思维的时间尺度。参与者是105名过去一周有自杀念头的成年人,他们完成了一项为期42天的实时监测研究(观察总数=20,255)。参与者完成了两种形式的实时评估:传统的实时评估(每天间隔数小时)和高频评估(间隔10分钟超过1小时)。我们发现自杀想法变化很快。描述性统计和马尔可夫转换模型都表明,自杀念头的升高状态平均持续1至3小时。个体在报告自杀念头升高的频率和持续时间上表现出异质性,我们的分析表明,自杀念头的不同方面在不同的时间尺度上运作。连续时间自回归模型表明,当前的自杀意图可以预测未来2 - 3小时的自杀意图水平,而当前的自杀愿望可以预测未来20小时的自杀愿望水平。多个模型发现,自杀意图升高的平均持续时间比自杀愿望升高的持续时间短。最后,在统计建模的基础上,关于自杀思想的个人动态的推断显示依赖于数据采样的频率。例如,传统的实时评估估计自杀欲望的严重自杀状态持续时间为9.5小时,而高频评估将估计持续时间移至1.4小时。

03

七种常用回归技术,如何正确选择回归模型?

回归分析是建模和分析数据的重要工具。本文解释了回归分析的内涵及其优势,重点总结了应该掌握的线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归、ElasticNet回归等七种最常用的回归技术及其关键要素,最后介绍了选择正确的回归模型的关键因素。 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归分析是建模

07

用综合信息准则比较随机波动率(SV)模型对股票价格时间序列建模

随机波动率(SV)模型是常用于股票价格建模的一系列模型。在所有的SV模型中,波动率都被看作是一个随机的时间序列。然而,从基本原理和参数布局的角度来看,SV模型之间仍有很大的不同。因此,为一组给定的股票价格数据选择最合适的SV模型对于对股票市场的未来预测非常重要。为了实现这一目标,可以使用留一交叉验证(LOOCV)方法。然而,LOOCV方法的计算成本很高,因此它在实践中的应用非常有限。在对SV模型的研究中,我们提出了两种新的模型选择方法,即综合广泛适用信息准则(iWAIC)和综合重要性抽样信息准则(iIS-IC),作为近似LOOCV结果的替代品。在iWAIC和iIS-IC方法中,我们首先计算每个观测值的期望似然,作为相对于相应的潜变量(当前的对数波动参数)的积分。由于观测值与相应的潜变量高度相关,每个第 t 个观测值(y obs t)的综合似然值期望接近于以 y obs t 为保持数据的模型所计算的 y obs t 的期望似然值。其次,在计算信息标准时,综合期望似然被用作期望似然的替代。由于相对于潜变量的整合在很大程度上减少了模型对相应观测值的偏差,因此整合后的信息标准有望接近LOOCV结果。为了评估iWAIC和iIS-IC的性能,我们首先使用模拟数据集进行了实证研究。该研究结果表明,iIS-IC方法比传统的IS-IC有更好的性能,但iWAIC的性能并不优于非综合WAIC方法。随后,利用股票市场收益数据进行了进一步的实证研究。根据模型的选择结果,对于给定的数据,最好的模型是具有两个独立自回归过程的SV模型,或者是具有非零预期收益的SV模型。

02

R语言用综合信息准则比较随机波动率(SV)模型对股票价格时间序列建模

随机波动率(SV)模型是常用于股票价格建模的一系列模型。在所有的SV模型中,波动率都被看作是一个随机的时间序列。然而,从基本原理和参数布局的角度来看,SV模型之间仍有很大的不同。因此,为一组给定的股票价格数据选择最合适的SV模型对于对股票市场的未来预测非常重要。为了实现这一目标,可以使用留一交叉验证(LOOCV)方法。然而,LOOCV方法的计算成本很高,因此它在实践中的应用非常有限。在对SV模型的研究中,我们提出了两种新的模型选择方法,即综合广泛适用信息准则(iWAIC)和综合重要性抽样信息准则(iIS-IC),作为近似LOOCV结果的替代品。在iWAIC和iIS-IC方法中,我们首先计算每个观测值的期望似然,作为相对于相应的潜变量(当前的对数波动参数)的积分。由于观测值与相应的潜变量高度相关,每个第 t 个观测值(y obs t)的综合似然值期望接近于以 y obs t 为保持数据的模型所计算的 y obs t 的期望似然值。其次,在计算信息标准时,综合期望似然被用作期望似然的替代。由于相对于潜变量的整合在很大程度上减少了模型对相应观测值的偏差,因此整合后的信息标准有望接近LOOCV结果。为了评估iWAIC和iIS-IC的性能,我们首先使用模拟数据集进行了实证研究。该研究结果表明,iIS-IC方法比传统的IS-IC有更好的性能,但iWAIC的性能并不优于非综合WAIC方法。随后,利用股票市场收益数据进行了进一步的实证研究。根据模型的选择结果,对于给定的数据,最好的模型是具有两个独立自回归过程的SV模型,或者是具有非零预期收益的SV模型。

06
领券