机器学习之样本采样技术介绍

文章来源：企鹅号

工业界使用的采样技术通常有欠采样和过采样。欠采样是指去掉部分样本，通常针对负样本；过采样是指增加样本，通常针对正样本。根据采样比例的不同，采样方式还可以分为：均匀采样、非均匀采样（例如点击率不同的场景或者位置采样比例不同）；

先来说说欠采样，欠采样可能有两个目的，一是降低训练的计算量，二是去噪；很明显，欠采样可以大幅降低训练计算量，同时产出较小的模型，在大规模机器学习时可以大幅提高策略迭代效率，但同时也丢失了部分信息（可能一部分有用信息，一部分噪声），所以需要在使用时平衡节省的计算量和效果；

欠采样如果保留重要的样本、去掉不重要的样本，那么效果损失比较小，什么是不重要的样本呢？作者认为有如下三种：

噪声：例如展示广告时，有些广告用户实际没有关注到，这些数据可以认为是噪声，去除这些样本反而有利于效果。实际中比较难知道用户是否真的看到了广告，可以采用如下近似的方式，当然最好的方式增加停留时长统计或者眼球跟踪技术判断是否是有效展示：

只针对该次请求无点击行为的样本列表采样；

针对最低位置点击行为下方的样本采样；

很充分的数据：很充分的数据在训练时存在冗余，去掉影响较小；很充分的数据可以认为是样本的每个特征统计都很充分的数据，可以用特征值中view最小的值表示；

很容易分对的数据：如何判断容易分对呢，可以先训练一个简单模型判断，对分对概率高的样本去掉的比例增大，对分对概率低的样本概率减小，通常这种方式对长尾部分效果更明显，该思想的一个常见算法是：Local Case－Control Sampling；

再来谈谈过采样，过采样在工业界的一个使用是正例复制，可以加快DNN训练的收敛速度；SMOTE等样本合成方式也是一种过采样方式，在大规模数据下的应用效果未知； Local Case－Control Sampling方法值得一试，对容易分错的样本加大其比例。

需要注意的问题，某些场景不仅在乎排序，也在乎值的准确性，例如广告预估CTR需要参与ECPM计算，采样影响预估值的准确性，所以需要补偿。通常的补偿方式有两种：一种是训练时补偿（例如采样保留比例是p，保留的样本权重从1变为1/p），一种是预估时补偿；训练时补偿更通用。需要特别注意的是采样和补偿方式不仅需要保证整体准确度无偏差，还需要保证主要细分维度准确度无偏差。

发表于: 2018-01-262018-01-26 16:43:36
原文链接：http://kuaibao.qq.com/s/20180126G0OZLA00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

机器学习之样本采样技术介绍

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐