首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

算法导论第九章中位数和顺序统计量(选择问题)

本章如果要归结成一个问题的话,可以归结为选择问题,比如要从一堆数中选择最大的数,或最小的数,或第几小/大的数等, 这样的问题看似很简单,似乎没有什么可研究的必要,因为我们已经知道了排序算法,运用排序+索引的方式不就轻松搞定了?但细想,排序所带来的时间复杂度是不是让这个问题无形之中变得糟糕。那算法研究不就是要尽可能避免一个问题高复杂度地解决,让那些不敢肯定有无最优解的问题变得不再怀疑,这也是算法研究者所追求的一种极致哲学。既然排序让这个问题解决的性能无法确定,那我们就抛开排序,独立研究问题本身,看有没有确

07

去除箱线图中的outliers

异常值outlier:指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。当遇到一组数据中有少量outliers,一般是需要剔除,避免对正确的结果造成干扰。我们可以通过箱线图来检测并去除outliers. 箱线图可以通过5个数来概括:最小值,最大值,下四分位(Q1,在25%位置),上四分位(Q3,在75%位置),中位值(50%位置)。箱线图能够显示离群点,可以通过IQR(InterQuartile Range,四分位距即Q3-Q1)计算得到。该离群点定义为异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。 UpperLimit=Q3+1.5IQR=75%分位数+1.5(75%分位数-25%分位数) LowerLimit=Q1-1.5IQR=25%分位数 - 1.5(75%分位数-25%分位数) 即在UpperLimit与LowerLimit之外的值为outlier。

02
领券