原来你知道我会点你的广告！

文章来源：企鹅号 - 狼人跑

来源：某医药品牌 DMP 分析报告

作者：DMP开发研究组

本文经授权后发布，转载请联系原作者授权

一、模型简述

“某医药品牌点击人群预测模型”旨在通过机器学习的方式，寻找出历史人群点击行为与该品牌人群点击行为之间的关联，并通过模型预测及优化点击人群，最终提升CTR 效果。

模型搭建步骤：

二、数据分析

目前我们从2000 万具有历史点击行为的人群中，抽取出100 万人建立预测数据库，并用此预测数据库与该医药品牌的新一波Campaign 进行碰撞，得到24.55 万出现在预测数据库的人群。

这24.55 万人在这波Campgian 中，总共被曝光82 万次，点击14 万次，CTR 为17%。（Imp=82 万，Clk=14 万，CTR=17%）。

而从该品牌的历史平均CTR 4% 左右中，可以得出历史点击行为的人群也有很大可能在其新一波Campaign 中进行点击行为。

对这24.55 万人的预测结果与真实结果进行比对，得到结果如下图，0 代表未点击，1 代表点击，true label 代表真实结果，predicted label 代表预测结果。

从该图，可以看出：

预测为点击的190292 人中有67978 人在该品牌新Campaign 中最终也真实点击，但有122314 人被预测错误。

对于预测点击人群，模型只有35.7%的概率预测正确。预测未点击的55190 人中有46425 人被预测正确，仅有8765 人被预测错误。

对于预测非点击人群，模型有84.11%的概率预测正确。

因此在新的一波Campaign 中，利用预测数据库，首先排除预测为0 的人群。这一部分人群占总人群的22.48%，但有84.11%的概率这批人确实不会点击。

对于预测点击人群，正确的概率在35.7%。造成原因：通过评估标准ROC_AUC 的比对，模型的AUC 在测试集上的表现是0.62，而在真实数据上的表现是0.58（如下图），相差并不大。

三、总结与改善

结论：

1：收集具有历史点击行为的人群作为第一步筛选条件。具有历史点击行为的人群也有很大可能在该品牌新一波Campaign中进行点击行为。点击人群具有一定的点击偏好。

2：排除预测为非点击的人群作为第二步筛选条件。在新的一波Campaign 中，利用预测数据库，首先排除预测为0 的人群，这一批人群有84.11%的概率确实不会点击。

3：模型对点击人群的预测并不十分准确，原因在于各类模型都无法从现有的数据集中找到更好的点击的规律。数据本身没有特别显著的点击人群的点击行为规律，不过该品牌非点击人群的历史点击行为具有一定规律。

改善：

通过第一步和第二步筛选，把新数据融入旧数据后，再重新训练模型，提升模型准确度。

增加更多特征维度，增加除点击行为以外的特征维度。通过不同的、差异较大的不同特征来提高区分点击与非点击人群的准确率。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货