为了考虑样本的大小,有哪些可能的技术来平滑非常大的类别的比例?这里应用的兴趣是将比例作为预测模型的输入,但我对在证据很少且不想过度匹配的情况下使用原始比例很谨慎。
下面是一个例子,其中ID表示一个客户,印象和点击是分别显示和点击客户的广告数量。
发布于 2015-01-17 05:20:32
一个简单的方法是考虑拉普拉斯平滑(http://en.wikipedia.org/wiki/Additive_光顺 )或类似的东西。
基本上,不计算你的响应率为(点击)/(印象),你计算(点击+X)/(印象+ Y),例如选择X和Y,这样X/Y是点击/印象的全球平均值。
当点击量和感光度都很高时,这种平滑的响应率基本上等于真实的响应率(信号占优势)。当点击和印象都很低时,这个平滑的响应率将接近全球平均响应率--当你有很少的数据并且不想给它太多的权重时,这是一个很好的猜测!
X和Y的绝对标度将决定你认为“足够的数据”有多少个数据点。有人认为,正确的做法是将X设为1,而Y则适当地考虑了这一点。
https://datascience.stackexchange.com/questions/2558
复制相似问题