方差分析是检验多个总体均值是否相等的统计方法,本质上研究的是分类型自变量对数值型因变量的影响。
来源:深度学习爱好者本文约3200字,建议阅读10分钟本文与你分享时间序列分析的基础知识。 时间序列的定义 一个时间序列过程(time series process)定义为一个随机过程,这是一个按时间排序的随机变量的集合,也就是将每一个时刻位置的点作为一个随机变量。 是索引集合(index set), 决定定义时序过程以及产生观测值的一个时间集合 。其中假定 随机变量 的取值是连续的。 时间索引集合 是离散且等距的。 在整个过程中,都采用以下符号: 随机变量(Random variables)用大写字
本文由博主经过查阅网上资料整理总结后编写,如存在错误或不恰当之处请留言以便更正,内容仅供大家参考学习。
用少量数据来概括大量数字是日常生活中常见的。那么可以用少量所谓汇总统计量或概括统计量(summary statistic)来描述定量变量的数据。任何样本的函数,只要不包含总体的未知参数,都称为统计量(statistic),那么样本的随机性决定了统计量的随机性。
作者:东哥起飞,来源:Python数据科学 本文开启时间序列系列的相关介绍,从零梳理时序概念、相关技术、和实战案例,欢迎订阅 👉时间序列专栏 跟踪全部内容。 本篇介绍时间序列的平稳性的相关概念。很多传统时序方法比如ARMA、ARIMA都需要时序具备平稳性,那什么是时序的平稳性?为什么需要平稳性,平稳性有什么作用? 什么是平稳性? 时间序列平稳性是指一组时间序列数据看起来平坦,各阶统计特征不随时间的变化而变化。平稳性分为宽平稳和严平稳,我们分别给出定义: 严平稳 严平稳是一种条件很苛刻的定义,时间序列的所有统
Fisher信息量提供了一种衡量随机变量所包含的关于其概率分布中的某个参数(如均值)的信息量的方法。
回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将总结 10 个重要的回归问题和5个重要的回归问题的评价指标。
来源:机器学习研习院本文约3200字,建议阅读10+分钟本文为你总结10个重要的回归问题和5个重要的回归问题评价指标。 回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将总结 10 个重要的回归问题和5个重要的回归问题的评价指标。 一、线性回归的假设是什么? 线性回归有四个假设: 线性:自变量(x)和因变量(y)之间应该存在线性关系,这意味着x值的变化也应该在相同方向上改变y值。 独立性:特征应该相互独立,这意味着最小的多重共线性。 正态性:残差应该是正态分布的。 同方差性:回归线周围数据点的
在这节课中,我们将讨论主成分分析(PCA)和聚类(clustering)这样的无监督学习方法。你将学习为何以及如何降低原始数据的维度,还有分组类似数据点的主要方法。
原文作者: Jacob Joseph 原文链接:https://blog.clevertap.com/how-to-detect-outliers-using-parametric-and-n
异常值是指距离其他观测值非常遥远的点,但是我们应该如何度量这个距离的长度呢?同时异常值也可以被视为出现概率非常小的观测值,但是这也面临同样的问题——我们要如何度量这个概率的大小呢? 有许多用来识别异常
时间序列预测与建模在数据分析中起着重要的作用。时间序列分析是统计学的一个分支,广泛应用于计量经济学和运筹学等领域。这篇技能测试文章是为了测试你对时间序列概念的了解程度。
方差分析又称F检验,在实际应用中常常需要对多个整体的均值进行比较,并分析他们之间是否存在差异,差异是否显著,这个时候我们就需要使用方差分析。
大数据文摘作品 编译:丁慧、文明、Katherine Hou、云舟 高斯过程可能不是当前机器学习最火的研究方向,但仍然在很多前沿的研究中被使用到——例如,最近在AlphaGo Zero中自动调整MCTS超参数就使用了它。在建模能力和进行不确定性估计方面,它们具有非常高的易用性。 然而,高斯过程很难掌握,尤其是当你习惯了深度学习中其他常见的模型之后。所以本文希望在具备相当少的ML知识背景下,对高斯过程提供一个直观的理论介绍,请学习者下载notebook并实现本文中提到的所有代码。 Jupyter noteb
时间序列由四个主要成分组成: 季节变化、趋势变化、周期变化和随机变化。在今天的推文中,我们将使用状态空间模型对单变量时间序列数据进行预测分析。该模型具有连续的隐状态和观测状态。
回归分析在统计学中非常重要,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。
塔勒布最早因为著作《黑天鹅》而被大家所熟知,他相信黑天鹅事件(往往伴随市场大跌,911,英国退欧都是比较典型的黑天鹅事件)的出现频率远远超出投资者的预期,由于无法预测什么时候会以何种形式出现,因此他一直提倡要持续不断地买入看跌期权才能真正实现对投资组合的对冲目的。
导读:本文内容较长,较为详细的阐述了进行时间序列预测的步骤,有些内容可能暂时用不到或者看不懂,但不要紧,知道有这么一个概念,后续碰到的时候,继续深入学习以及使用就可以。
在分析高维数据时,降维(Dimensionality reduction,DR)方法是我们不可或缺的好帮手。
我在数据清理/探索性分析中遇到的最常见问题之一是处理缺失的值。首先,要明白没有好的方法来处理丢失的数据。根据问题的类型,我遇到过不同的数据归集解决方案-时间序列分析,ML,回归等,很难提供一个通用的解决方案。在篇文章中,我试图总结最常用的方法,并试图找到一个结构化的解决方案。
趋势变动:在长时期内按某种规则稳定地呈现出来的持续向上或向下或保持在某一水平。季节变动:在一个年度内重复出现的周期性波动。它是诸如气候条件、生产条件、节假日或人们的风俗习惯等各种因素影响的结果。循环波动:是时间序列呈现出得非固定长度的周期性变动。循环波动的周期可能会持续一段时间,但与趋势不同,它不是朝着单一方向的持续变动,而是涨落相同的交替波动。不规则波动(随机变动):是许多不可控的偶然因素共同作用的结果,致使时间序列产生一种波浪形或震荡式的变动。
【数据挖掘 & 机器学习 | 时间序列】时间序列必学模型: ARIMA超详细讲解 作者: 计算机魔术师 版本: 1.0 ( 2023.8.27 )
为了对几个行业的服务消费者协会在四个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表
推断统计的核心就是研究如何利用样本去推断总体特征。因为总体的情况一般是未知的,我们又想研究总体的特征,于是我们采用抽样的方法。用样本均值估计总体均值,用样本方差去估计总体方差。
本文提出了一个表示高保真点云传感器观测的框架,用于实现高效的通信和存储。该方法利用稀疏高斯过程将点云进行压缩编码。我们的方法只使用一个模型(一个2D稀疏高斯过程)来表示自由空间和被占据空间,而不是现有的双模型框架(两个3D高斯混合模型)。我们通过提出一种基于方差的采样技术来实现这一点,它可以有效地区分自由空间和被占据空间。这种新的表示方式需要更少的内存占用,并且可以通过有限带宽的通信通道进行传输。该框架在仿真中被广泛应用,并被一个配有3D激光雷达的真实移动机器人进行了验证。与发送原始点云相比,我们的方法使通信速率降低了70~100倍。
大家好!我是来自Google网络媒体团队的李博晗。今天,我将讨论有关AV1的编码器优化技术。
介绍了卡尔曼滤波的由来和原理,我们在这儿一句话总结一下,大家如果有不懂的可以去看上篇文章:
最近一直在接触时间序列,所以打算写一些有关时间序列的文章,预测部分会从规则开始、到传统模型、到机器学习、再到深度学习,此外也会介绍一些时间序列的基本概念,包括自相关、平稳性、滞后性、季节性等。
s^2 = \frac {1}{n-1} \sum_{i=1}^n \left(x_i - \overline{x} \right)^ 2
期望最大化算法(Expectation-Maximization Algorithm,简称EM算法)是一种迭代优化算法,主要用于估计含有隐变量(latent variables)的概率模型参数。它在机器学习和统计学中有着广泛的应用,包括但不限于高斯混合模型(Gaussian Mixture Model, GMM)、隐马尔可夫模型(Hidden Markov Model, HMM)以及各种聚类和分类问题。
试验中要考察的指标称为试验指标,影响试验指标的条件称为因素,因素所处的状态称为水平 (通常用于3个或更多水平时;如果只有2个水平考虑T-test);若试验中只有一个因素改变则称为单因素试验,若有两个因素改变则称为双因素试验,若有多个因素改变则称为多因素试验。
【编者按】集成建模是一种提高模型性能的强大方式。本文作为通俗入门教程,首先通过一个例子快速引入集成学习的基础知识,介绍如何真正得到不同的学习模块,并着重讨论了几种在行业内广泛使用的集成技术,包括Bagging、Boosting、Stacking等。 导论 集成建模是一种提高模型性能的强大方式。在你可能构建的各种模型上使用集成学习通常卓有成效。一次又一次,人们在 Kaggle这样的比赛中使用集成模型,并且从中受益。 集成学习是一个广泛的话题,广到超出你的想象力。对于本文,我将涵盖集成建模的基本概念和思想。这应
在工作中,除了同时进行 AB 两组实验之外,也会存在多组实验同时进行的情况。这种情况下就不能使用之前的实验结果分析方法了,而需要采用方差分析与
但是不要被长度吓到了,我们已经将其分为四个部分(机器学习、统计信息、SQL、其他),以便你可以逐步了解它。
一派是基于马尔科夫性假设的滤波器方法,认为当前时刻的状态只与上一时刻的状态有关。另一派是非线性优化方法,认为当前时刻状态应该结合之前所有时刻的状态一起考虑。
数据汇总是一个将原始数据简化为其主要成分或特征的过程,使其更容易理解、可视化和分析。本文介绍总结数据的七种重要方法,有助于理解数据实质的内容。
也服从高斯分布,所以我们只需计算均值和协方差矩阵即可。由上式可知协方差矩阵对应二次项,而均值对于一次项(协方差矩阵已知),那么对应有
在前面两次的教程中,我们学习了方差分析和回归分析,它们都属于线性模型,即它们可以通过一系列连续型 和/或类别型预测变量来预测正态分布的响应变量。但在许多情况下,假设因变量为正态分布(甚至连续型变量)并不合理,比如:结果变量可能是类别型的,如二值变量(比如:是/否、通过/未通过、活着/死亡)和多分类变量(比如差/良好/优秀)都显然不是正态分布;结果变量可能是计数型的(比如,一周交通事故的数目,每日酒水消耗的数量),这类变量都是非负的有限值,而且它们的均值和方差通常都是相关的(正态分布变量间不是如此,而是相互独立)。广义线性模型就包含了非正态因变量的分析,本次教程的主要内容就是关于广义线性模型中流行的模型:Logistic回归(因变量为类别型)和泊松回归(因变量为计数型)。
中级以用矩阵描述的经典的线性单方程模型理论与方法、经典的线性联立方程模型理论与方法,以及传统的应用模型为主要内容;
通往机器学习算法工程师的进阶之路是崎岖险阻的。《线性代数》《统计学习方法》《机器学习》《模式识别》《深度学习》,以及《颈椎病康复指南》,这些书籍将长久地伴随着你的工作生涯。
在一些问题中,常常希望根据已有数据,确定目标变量(输出,即因变量)与其它变量(输入,即自变量)的关系。当观测到新的输入时,预测它可能的输出值。这种方法叫回归分析(确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法)。
1、序列的均值(mean)不应该是时间的函数(意思是不应该随时间变化),而应该是一个常数。下面的左图满足这个条件,而右图的均值受时间的变化影响。
一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析是一种常用的数据分析方法,其目的是通过数据分析找出对该事物有显著影响的因素、各因素之间的交互作用及显著影响因素的最佳水平等。
基于概率论的数理统计也即概率统计是现代科学研究的基础工具与方法论,错误的理解与使用概率统计也可能会导致完全错误的研究结果。即使现在,我们随便抽出一篇微生物组学研究的paper,都有可能发现其中概率统计的瑕疵,诸如线性回归算法样品数少于变量数、R2与P值未作校正、聚类结果未作检验等。无论任何时候,我们都应该尝试去反思:我的概率统计知识够吗?
从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均值的变异情况,则总变异有以下两个来源:
回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将介绍回归分析概念、7种重要的回归模型、10 个重要的回归问题和5个评价指标。
领取专属 10元无门槛券
手把手带您无忧上云