首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >平滑比例:海量用户数据库

平滑比例:海量用户数据库
EN

Data Science用户
提问于 2014-11-28 03:02:44
回答 1查看 66关注 0票数 3

为了考虑样本的大小,有哪些可能的技术来平滑非常大的类别的比例?这里应用的兴趣是将比例作为预测模型的输入,但我对在证据很少且不想过度匹配的情况下使用原始比例很谨慎。

下面是一个例子,其中ID表示一个客户,印象和点击是分别显示和点击客户的广告数量。

EN

回答 1

Data Science用户

回答已采纳

发布于 2015-01-17 05:20:32

一个简单的方法是考虑拉普拉斯平滑(http://en.wikipedia.org/wiki/Additive_光顺 )或类似的东西。

基本上,不计算你的响应率为(点击)/(印象),你计算(点击+X)/(印象+ Y),例如选择X和Y,这样X/Y是点击/印象的全球平均值。

当点击量和感光度都很高时,这种平滑的响应率基本上等于真实的响应率(信号占优势)。当点击和印象都很低时,这个平滑的响应率将接近全球平均响应率--当你有很少的数据并且不想给它太多的权重时,这是一个很好的猜测!

X和Y的绝对标度将决定你认为“足够的数据”有多少个数据点。有人认为,正确的做法是将X设为1,而Y则适当地考虑了这一点。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/2558

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档