专栏首页AI2ML人工智能to机器学习评价参数估算的常用指标

评价参数估算的常用指标

前面“ 回归分析中的问题和修正的探讨(下篇)”,讲到了无偏性和有效性, 这里把评价参数估计的常用指标简述下下。

基本指标

1.1 无偏性 Unbias

估算的偏差就是估计值的期望与真实值的差值。

无偏就要求估计值的期望就是真实值。

1.2 有效性 Efficiency

如果有两个估计值, 那么分布在距离真实值附近的应该效果更好。

在这种思路下, 相对有效性是相对值, 估计T1和估计T2的相对有效性是平方差的期望的反比值。 如果比值越大,说明T1越有效。

所以,单纯从有效性出发,最有效的,也就是最好Best的估计是均方差最小的估计。 如果是无偏估计, 那么就是方差最小了。

1.3 一致性 Consistency

就是随着样本量n增加,最后估算值会按概率收敛到真实值, 那么就是一致的估计。

所以直观上来说,就是随着样本增加, 估计距离真实值的附近的波动越来越小,直到收敛。

一致性和无偏性有一定相似的地方, 都是围绕真实值得。 但是无偏性可以一直震荡, 但不收敛, 而一致性必须收敛。 无偏性要求分布真实值两边对称, 但是无偏性只要收敛,并无对称要求。

有偏一致的估计 (红色) VS 无偏不一致的估计(蓝色)

1.4 渐进性 Asymptote

渐近性就是现在不满足, 但是按照大数定理, 随着样本数n增长就满足了。

常见的有渐进无偏性 Asymptotic unbiasness:

当前是有偏的, 但是随着n增大, 可以证明是无偏的

渐进有效性 Asymptotic efficiency:

譬如均值估计, 方差会越来越小, 收敛到期望, 一般来说最大似然估计满足渐进有效性。

渐进正态性 Asymptotic normality:

某种意义上就是中心极限定理的表述:

鲁棒性 Robustness:

简单来说就是就算存在奇异值Outlier (参考 一个奇异值的江湖 -- 经典统计观 )的时候估计方法也应该适用的。

举个例子, 均值Mean和中值Median的对比, 当正态分布的时候, 两者是比较一致的, 但是偏度Skewness比较大的时候, 均值和中值表现就不一样了。 中值依然能把数据50%的划分, 而均值就不行了 。那么, 你要想象一下,只是偏度变化就这样了, 假如有一个超级大的outlier, 那么均值肯定效果不好, 所以中值在估算平均水平的时候比较Robust。

这也是为什么, 对于有偏度的分布, 我们要尽量先进行数据变换(参考 数据变换), 而对于有异常值得数据,先进性异常值检验(参考 一个奇异值的江湖 -- 经典统计观一个奇异值的江湖 -- 机器学习观), 因为很多算法并不鲁棒。

再延伸一步, 这样某种意义上, 从均值发展而来的最小二乘法(详细参考 一步一步走向锥规划 - 最小二乘法), 也是不鲁棒的 。

最小二乘法 从均值到线性(自由度增加)

最小二乘法对outlier敏感

对比之下, 而从Median加上线性思想发展起来的L-Estimator是鲁棒的。

类比之下, 从排序Ranking发展起来的R-Estimator也是鲁棒的。

延伸之下, 从最大似然Maximum Likelihood靠近的M-Estimator也相对鲁棒。

Outlier下的OLS (红) vs MLE (蓝)

另外有个伟大的算法, 叫 随机抽样一致RANdom SAmple Consensus,RANSAC, 它对outlier有一套, 有兴趣大家可以详细看看, 是回归里面自带outlier检验的算法, 鲁棒性比较好。 以后有机会再展开。

组合指标

最常用的组合指标有两个一个是BLUE, Best Linear Unbias Estimiaton 和 MVUE, Minimum Variance Unbias Estimiation。 都是要求无偏, 并且最有效的, 区别是一个是线性的, 一个是非线性的。

举个例子, 如下图,线性的估计,就希望是BLUE的, 而非线性的估计,就希望是MVUE的。 很明显, 如果是非线性的情况, 很大情况要比线性情况估算的方差要小的。

小结

我们把参数估计的常用指标大致概述了下下, 主要是BLUE和MVUE的引入。

关键词:

Unbias

Efficiency

Consistency

Asymptote

Robustness

L-Estimator

R-Estimator

M-Estimator

RANSAC

BLUE

MVUE

本文分享自微信公众号 - AI2ML人工智能to机器学习(mloptimization),作者:史春奇

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-05-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • GMM的世界,你不懂?(下篇)

    在 GMM的世界,你不懂?(上篇) 里面简介了GMM的诞生的思绪历程, 当然是猜的啦。 这里稍微扩展点点, 说明下下GMM的广和美。

    史博
  • 从非结构化文本中提取知识

    从人们在互联网上的公开话语中, 可以提取到异常多的信息。 在Heuritech,我们使用这些信息来更好地了解人们想要什么,他们喜欢什么产品以及原因。 这篇文章从...

    史博
  • Hinton是如何理解PCA?

    “深度学习名校课程大全” 里面给出了很多深度学习的课程, 但是说到书的话, 还是推荐 Ian Goodfellow的 “Deep Learning”, 张志华老...

    史博
  • TCP为什么需要3次握手与4次挥手

    http://blog.csdn.net/xifeijian/article/details/12777187   (排名655)

    bear_fish
  • hadoop发行商介绍:Cloudera

    ‍‍‍‍在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。现在国内很多公司也都选用他们的发行版本(CDH)。‍‍ ‍‍Cloudera由...

    大数据和云计算技术
  • Odoo开发指北 03 模型

    Odoo中,一切皆模型,连视图都是模型。Odoo将各种数据,如:权限数据、类数据、视图数据等,按照模型分表存储,然后在查看时,按照索引从各个表格读取信息,组合成...

    LittlePanger
  • PHP获取当前时间、年份、月份、日期和天数

    其中参数 format 为显示格式,参数 timestamp 为时间戳,是可选择的,默认为 time() ,即如果没有给出时间戳则使用本地当前时间。

    德顺
  • 百闻不如一码!手把手教你用Python搭一个Transformer

    与基于RNN的方法相比,Transformer 不需要循环,主要是由Attention 机制组成,因而可以充分利用python的高效线性代数函数库,大量节省训练...

    大数据文摘
  • windows10破解SecureCRT

    步骤一,百度网盘下载文件VanDyke.SecureCRT.and.SecureFX.8.3.0.Build.1514.rar。https://pan.baid...

    震八方紫面昆仑侠
  • windows域的创建

    …… 写到一半,本想把加入域也写完的,但是百度的时候发现了下面这篇博客,写的很详细,感觉够用了。发现其实也就这么回事,就不浪费笔墨了。

    宸寰客

扫码关注云+社区

领取腾讯云代金券