专栏首页Coggle数据科学DF消费者人群画像—信用智能评分方案分享(top5)

DF消费者人群画像—信用智能评分方案分享(top5)

写在前面

队伍名:小兔子乖乖

完整方案

1.赛题背景和意义

2.数据探索和特征工程

3.研究成果

4.未来展望

1.赛题背景和意义

此次比赛是中国移动福建公司提供2018年某月份的样本数据,包括客户的各类通信支出、欠费情况、出行情况、消费场所、社交、个人兴趣等丰富的多维度数据,参赛者通过分析建模,运用机器学习和深度学习算法,准确评估用户消费信用分值。我们知道通讯运营商作为社会企业中不可缺少的部分,同样需要打造企业信用评分体系,助推整个社会的信用体系升级。可是“传统的信用评分主要以客户消费能力等少数的维度来衡量,难以全面、客观、及时的反映客户的信用。中国移动作为通信运营商拥有海量、广泛、高质量、高时效的数据,如何基于丰富的大数据对客户进行智能评分是中国移动和新大陆科技集团目前攻关的难题。运营商信用智能评分体系的建立不仅能完善社会信用体系,同时也中国移动内部提供了丰富的应用价值,包括全球通客户服务品质的提升、客户欠费额度的信用控制、根据信用等级享受各类业务优惠等。有了赛题的初步了解,我们接着考虑赛题的意义,主要为四个方面,(1)可直面真实场景数据,可以接触到企业内部真实脱敏的数据,让参赛者在真实业务场景上使用数据;(2)可以交流多种想法,可以接触到企业内部真实脱敏的数据,让参赛者在真实业务场景上使用数据;(3)进一步提升信用评估方法技能,通过此次参赛可进一步提升参赛选手的对用户信用评分的技能,可以用在用户画像和黑产识别上;(4)加强机器学习应用技能,通过此次参赛可加强如何将算法知识应用在用户给评分的业务场景中。有了这些基本的了解,接下来将具体展示详细工作。

2.数据探索与特征工程

基本特征:用户ID类特征,主要标签为是否大学生客户,是否黑名单客户,是否4G不健康客户,缴费用户当前是否欠费缴费。用户数值型特征,主要标签为用户网龄(月),用户最近一次缴费距今时长(月),缴费用户最近一次缴费金额(元),用户近6个月平均消费话费(元),用户账单当月总费用(元),用户当月账户余额(元),用户话费敏感度。当月网购类应用使用次数,当月物流快递类应用使用次数,当月金融理财类应用使用总次数,当月视频播放类应用使用次数,当月飞机类应用使用次数,当月火车类应用使用次数,当月旅游资讯类应用使用次数在此处插入段落文本。 大体可以看作布尔型和数值型在此处插入段落文字。

年龄与信用分的相关性图

数据探索:我们对用户缴费金额与信用分,用户年龄与信用分进行了分析。同时对一些值进行替换。

敲黑板:从图中可以看到存在很多的异常值,然而在这到题中,提出异常值得样本成为提分得关键,由于这些异常值是会对整体评估造成影响。包括前排也都会这样做。

data.loc[data['用户年龄']==0,'用户年龄'] = None
data.loc[data['用户话费敏感度'] == 0, '用户话费敏感度'] = None
data.loc[data['用户账单当月总费用(元)'] == 0, '用户账单当月总费用(元)'] = None
data.loc[data['用户近6个月平均消费值(元)'] == 0, '用户近6个月平均消费值(元)'] = None

基本特征构造

新的探索

不断改善,才能不断创造可能,从多方面进行探索,最终得到全面提升。这里将分为四个方面,(1)数据多种数据影响,对数据的预处理,不同类别影响因素对用户信用的影响;(2)同样特征工程,特征在某些模型表现优异,而在另一些模型表现不佳;(3)构建新的特征不同模型采用了不同特征;(4)构建新的模型,并尝试更好的运用。

3.研究成果

经过上面一系列的过程,从数据分析到特征工程,然后不断的完善,得到最终的结果,模型方面我们保证差异性,特征方面我们分不同的组别进行训练。最终将多个结果进行融合。

我们知道,整个比赛提高成绩主要三个方面,除了特征工程外,剩下两各分别是模型调参和模型融合。对应模型融合部分在经过satcking,average的尝试后,我们选择了加权融合,由于模型和特征都存在差异性,最总结果提升很多,在B榜也是得到了第五的成绩。

4.未来展望

虽然比赛结束了,但还是期待更多的尝试,这次比赛的数据量并不是很多,考虑增加样本,来提高高质量的训练集容量,增加样本量可以防止过拟合,可以使模型的泛化能力更强;构建多重”UID“关注点不仅仅聚焦在呈现的一个用户的行为,可以聚焦用户群相互之间的特征标签做信用评分;丰富用户标签,用户标签越丰富,获得用户信息并区分用户行为的辨识度也相应的越高;尝试多种模型,不同模型带来的效益不一样,而融合也往往能带来不错的效果;

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 深入理解推荐系统:推荐系统中的attention机制

    深入理解推荐系统:Fairness、Bias和Debias​mp.weixin.qq.com

    Coggle数据科学
  • 奇异值分解(SVD)原理

    的图片,如果以像素值作为特征,那么每张图片的特征维度是10000。当进行PCA降维时,难点在于我们构造协方差矩阵时,维度达到

    Coggle数据科学
  • 2019腾讯广告算法大赛方案分享(冠军)

    bettenW/Tencent2019_Finals_Rank1st​github.com

    Coggle数据科学
  • 数据分析模型有哪些?常见的这八种来了解一下!

    在进行数据分析时,那就会提及数据分析模型。在进行数据分析之前,首先要建立一个数据分析模型。根据模型的内容,将其细分为不同的数据指标以进行详细分析,最后得到所需的...

    数据前沿
  • 干货 : 聚焦于用户行为分析的数据产品。

    因为工作需要,我的收藏夹里收集了很多数据相关的产品,其实加入收藏,也一直没有时间好好去研究。这几天恰好有时间翻出来逐个体验了番,顺手贴出来,大家一起研究。 受篇...

    小莹莹
  • 【扩展阅读】流氓软件你造吗?

    “流氓软件”是介于病毒和正规软件之间的软件,通俗地讲是指在使用电脑上网时,不断跳出的窗口让自己的鼠标无所适从;有时电脑浏览器被莫名修改增加了许多工作条,当用户打...

    腾讯大讲堂
  • 如何创建用户模型:问卷调查与数据分析

    很想写一些东西来总结总结自己的工作,可惜工作太忙一直也没顾得上来写。最近闲来想和大家讨论讨论关于创建用户模型的事情。 一、用户模型的建立与问卷数据的采集 Per...

    小莹莹
  • 通过智能投放与触发,提高广告投放效率,告别无效营销

    对于品牌主来说,做投放决策时最关注的就是自己的目标群体是哪些人,如何选择渠道才能覆盖到目标人群,投放的时长和频率又该如何依据人群特性进行配置。

    盒子菌
  • 用户生命周期,从运营到数据的最全攻略在这里

    上一篇{用户流失,该怎么分析}中,有很多同学留言想看用户生命周期的分析,今天它来了。用户生命周期管理,是系统化运营和拍脑袋运营的重要区别。不做系统化设计,就会沦...

    1480
  • 浅析数据化设计思维在阿里系产品的应用

    1、做设计为什么还需要看数据? 很多设计师从来不看数据,要么是因为没有数据可看,要么是根本不想看,但是也一样把设计做的很好啊!设计本来就是有感性的一面,为什么...

    机器学习AI算法工程

扫码关注云+社区

领取腾讯云代金券