茶碱数据文件报告来自抗哮喘药物茶碱动力学研究的数据。给 12 名受试者口服茶碱,然后在接下来的 25 小时内在 11 个时间点测量血清浓度。
最近我们被客户要求撰写关于非线性混合效应 NLME模型的研究报告,包括一些图形和统计输出。
茶碱数据文件报告来自抗哮喘药物茶碱动力学研究的数据。给 12 名受试者口服茶碱,然后在接下来的 25 小时内在 11 个时间点测量血清浓度 ( 点击文末“阅读原文”获取完整代码数据)。
茶碱数据文件报告来自抗哮喘药物茶碱动力学研究的数据。给 12 名受试者口服茶碱,然后在接下来的 25 小时内在 11 个时间点测量血清浓度(点击文末“阅读原文”获取完整代码数据)。
聚类模型是一个概念,用于表示我们试图识别的聚类类型。四种最常见的聚类方法模型是层次聚类,k均值聚类,基于模型的聚类和基于密度的聚类
P 和 Q 分别是 GARCH 和 ARCH 多项式中的最大非零滞后。其他模型参数包括平均模型偏移、条件方差模型常数和分布。
机器学习算法的分类是棘手的,有几种合理的分类,他们可以分为生成/识别,参数/非参数,监督/无监督等。 例如,Scikit-Learn的文档页面通过学习机制对算法进行分组。这产生类别如:1,广义线性模型
机器学习,深度学习已经变得越来越重要,其中的算法与模型也开始慢慢渗透到我们生活之中。圣诞假期读到一篇非常有趣的综述,主要的内容是讲作为生物学家,如何进行机器学习的学习。下面和大家一起学习这篇文章。
机器学习算法的分类是棘手的,有几种合理的分类,他们可以分为生成/识别,参数/非参数,监督/无监督等。 例如,Scikit-Learn的文档页面通过学习机制对算法进行分组。这产生类别如:1,广义线性模型,2,支持向量机,3,最近邻居法,4,决策树,5,神经网络,等等… 但是,从我们的经验来看,这并不总是算法分组最为实用的方法。那是因为对于应用机器学习,你通常不会想,“今天我要训练一个支持向量机!”相反,你心里通常有一个最终目标,如利用它来预测结果或分类观察。 所以在机器学习中,有一种叫做“没有免费的午餐”的定
风险价值 (VaR) 是金融风险管理中使用最广泛的市场风险度量,也被投资组合经理等从业者用来解释未来市场风险
为了方便起见,这些模型通常简称为TAR模型。这些模型捕获了线性时间序列模型无法捕获的行为,例如周期,幅度相关的频率和跳跃现象。Tong和Lim(1980)使用阈值模型表明,该模型能够发现黑子数据出现的不对称周期性行为。
其中 F−1是分布函数的倒数,也称为分位数函数。因此,一旦可以定义收益序列的分布,VaR 就很容易计算。
在大数据的趋势下,我们经常需要做预测性分析来帮助我们做决定。其中一个重要的事情是根据我们过去和现在的数据来预测未来。这种方法我们通常被称为预测
数据分箱(也称为离散分箱或分段)是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“分箱”的方法。
在实际研究中我们很多时候会碰到小数据集,特征数量远远大于样本量,比如我们希望预测患者对某种新疗法的反应。每个患者都包含了许多电子病历中的特征,但由于参加临床试验的患者数量有限,弄清楚哪些预测因素与对治疗真正相关就变得颇具挑战。在大样本的研究中,我们可以留出足够多的患者来测试模型的结果。但是对于一项小样本研究就会存在一些缺陷,比如为了留出验证集,用于训练模型的数据点就会进一步被压缩,导致信息丢失等等。
如果数据比简单的直线更为复杂,我们也可以用线性模型来你和非线性数据。一个简单的方法就是将每一个特征的幂次方添加为一个新的特征,然后在这个拓展的特征集上进行线性拟合,这种方法成为多项式回归。
使用forecast计算收益率:条件方差为1000周期的未来数据的MMSE预测。使用观察到的收益率和推断残差以及条件方差作为预采样数据。
R语言用多元ARMA,GARCH ,EWMA, ETS,随机波动率SV模型对金融时间序列数据建模
TLDR: 针对序列推荐中模态融合的顺序挑战,本文提出了一种基于图的自适应融合方法,以实现灵活的模态特征融合,使每种模态都能优先考虑其固有的顺序或与其他模态的相互作用。
之前在微信公众号中更新了以下几个章节 1,如何学习PCL以及一些基础的知识 2,PCL中IO口以及common模块的介绍 3, PCL中常用的两种数据结构KDtree以及Octree树的介绍
在学术界和金融界,分析高频财务数据的经济价值现在显而易见。它是每日风险监控和预测的基础,也是高频交易的基础。为了在财务决策中高效利用高频数据,高频时代采用了最先进的技术,用于清洗和匹配交易和报价,以及基于高收益的流动性的计算和预测。
本文显示了如何基于潜在的ARMA-GARCH模型(当然也涉及更广泛意义上的QRM)来拟合和预测风险价值(VaR)。
对于你的分类问题,你知道应该如何选择哪一个机器学习算法么?当然,如果你真的在乎精度(accuracy),最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“good enough”的算法来解决你的问题,或者这里有些技巧可以参考,因为其中会有一些基本准则。
首先,对模拟数据集进行详细建模。接下来,将马尔可夫转换模型拟合到具有离散响应变量的真实数据集。用于验证对这些数据集建模的不同方法。
在本文中,在学术界和金融界,分析高频财务数据的经济价值现在显而易见。(点击文末“阅读原文”获取完整代码数据)
本文描述了R语言中马尔克夫转换模型的分析过程。首先,对模拟数据集进行详细建模。接下来,将马尔可夫转换模型拟合到具有离散响应变量的真实数据集。用于验证对这些数据集建模的不同方法。
本文,我通过两个种群生态学家可能感兴趣的例子来说明使用“JAGS”来模拟数据:首先是线性回归,其次是估计动物存活率(公式化为状态空间模型)。
本文展示了如何基于基础ARMA-GARCH过程(当然这也涉及广义上的QRM)来拟合和预测风险价值(Value-at-Risk,VaR)
在生态学研究领域,广义线性混合模型(Generalized Linear Mixed Models,简称GLMMs)是一种强大的统计工具,能够同时处理固定效应和随机效应,从而更准确地揭示生态系统中复杂关系的本质(点击文末“阅读原文”获取完整代码数据)。
本文显示了如何基于潜在的ARMA-GARCH过程(当然也涉及更广泛意义上的QRM)来拟合和预测风险价值(VaR)。
本文档通过一些探索性数据分析来制定河流的评级曲线和流量预测。目的是利用 (1) 在底部安装单元的定期部署期间测量的瞬时流量和 (2) 来自长期部署在河流中的水位数据记录器的瞬时深度测量,以创建和更新评级曲线。额定曲线将用于计算 HOBO 压力传感器部署期间(大约 1 年)的流量。所得数据将用于创建和验证河流 10-15 年期间的回归和 DAR 流量估计。
当一个序列遵循随机游走模型时,就说它是非平稳的。我们可以通过对时间序列进行一阶差分来对其进行平稳化,这将产生一个平稳序列,即零均值白噪声序列。例如,股票的股价遵循随机游走模型,收益序列(价格序列的差分)将遵循白噪声模型。
对于转录组的差异分析而言,case/control的实验设计是最为常见,也最为基础的一种,有很多的R包可以处理这种类型的数据分析。在很多时候,还会有非常复杂的实验设计,比如时间序列, 时间序列与不同实验条件同时存在等情况,对于这种类型的差异分析而言,最常见的分析策略就是回归分析,将基因的表达量看做因变量,将时间和实验条件等因素看自变量,通过回归分析来构建一个合适的模型。
1 . 数据挖掘算法现状 : 目前数据挖掘领域算法很多 , 并且每年都会有有大量算法提出 ;
最近我们被客户要求撰写关于Nelson-Siegel的研究报告,包括一些图形和统计输出。
你们可能知道,实际极值分析有两种常用方法:分块极大值Block-maxima、阈值超额法threshold excess。今天,我们将分别介绍这两种方法。
机器学习是一种利用统计和其他数学理论给予计算机学习能力的方法。机器学习和统计其实都有相同的目标:从数据中学习知识。但是具体的手段和理念有所不同。机器学习是计算机科学的一个分支,侧重的是从数据中建立有机的系统,而不是用目的很明显的规则去编程。而统计学是数学的一个分支,侧重的是用数学公式建立变量之间的联系。近年来,随着计算机硬件成本的不断降低和数据量的极大增加,数据科学家得以充分利用机器学习手段来分析和挖掘数据。另一方面,统计建模技术则早在计算机问世前就已经存在。
在本教程中,我们将研究如何将Nelson-Siegel-Svensson(NSS)模型拟合到数据。由于我们将使用随机技术进行优化,因此我们应该重新运行几次。变量nRuns设置示例重启的次数。
在这项工作中,我通过创建一个包含四只基金的模型来探索 copula,这些基金跟踪股票、债券、美元和商品的市场指数
上一篇文章里简单介绍了AI产品经理需要具备的能力和对数据、算法需要理解的程度。本篇计划介绍一下机器学习的实际训练过程,来进一步的理解AI产品在日常工作中需要关注的内容。现简单的将训练流程划分为:定位要解决的任务类型 -> 选择合适的算法模型 -> 准备数据集 -> 训练模型 -> 调整参数 -> 模型评估及验收。
信用评分是衡量人们信用的数字表示。银行业通常用它作为支持信贷申请决策的方法。本文讲述如何用Python(Pandas、Sklearn)开发标准评分卡模型,它已成为一种最受欢迎且最简单的衡量客户信用的形式。
领取专属 10元无门槛券
手把手带您无忧上云