作者: 时晴
说起"炼丹"最耗时的几件事,首先就能想到的就是数据清洗,特征工程,还有调参.特征工程真的是老生常谈了,但是特征工程又是最重要的一环,这一步做不好怎么调参也没用.在特征工程中,做特征缩放是非常重要的...,如下图所示:
我们可以看到,在没做特征缩放前,用kmeans跑出的聚类结果就如图所示,以y=0为分界线,上面是一类,下面是一类,相当的离谱.主要原因就是y值的取值范围很大,从-4000~4000,而...from sklearn.preprocessing import RobustScaler
RobustScaler是基于中位数的缩放方法,具体是减去中位数再除以第3分位数和第一分位数之间的差值....如下所示:
因为该缩放方法用了分位点的差值,所以它降低了异常值的影响,如果你发现数据有异常值,并且懒得去修正它们,就用这种缩放方法吧.我们对比下异常值对StandardScaler和RobustScaler...MinMaxScaler: 不适用于有异常值的数据;使得数据缩放到0~1.
MaxAbsScaler: 不适用于有异常值的数据;使得数据缩放到-1~1.