前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python手写了 35 种可解释的特征工程方法

Python手写了 35 种可解释的特征工程方法

作者头像
Sam Gor
发布2020-09-14 14:43:01
1.3K0
发布2020-09-14 14:43:01
举报
文章被收录于专栏:SAMshareSAMshare

背景

特征的挖掘,是一个 算法工程师 or 数据挖掘工程师,最最最基本的能力。实际业务中,许多数时候数据源和建模目标都是确定的,这时候特征工程几乎就决定了最终模型的业务效果。即使是表示学习横行的当下,在风控和推荐系统中依然大量的使用着手工的特征进行建模。本文将介绍机器学习中的2大类特征深入挖掘方法(特征聚合&特征交叉),以及其中35种特征衍生方案。希望能为对此处经验较少的读者提供一些帮助。

通过一个简单的小漫画,来看看机器学习&数据挖掘中的特征工程。

目录

背景 特征生成 特征聚合 特征交叉 总结 书籍推荐

一、特征生成

特征生成,即基础的特征构造。通常只需从平台数据库或数据仓库中,通过SQL(结构化查询语言)语句,根据确定下来的样本标识直接提取即可。然而直接用通过简单匹配得到的变量进行建模,其效果通常较差。在数据源与数据质量确定的情况下,特征工程将极大程度上决定评分卡模型的效果,因此特征工程是建模人员的核心能力之一。特征工程包括特征生成与特征变换。

本文主要介绍其中的特征生成。即如何深入挖掘特征的信息。

用于预测的特征的原始变量,必须是在模型开发样本和将来模型实施时均可观察到的信息。特征的预测能力主要来源于它们与目标变量的相关性(Correlation)和逻辑因果关系。传统的特征提炼主要靠建模人员的直觉、长期经验的积累和数据挖掘技术的应用。此外,还有一些通过表示学习自动抽取关键特征的技术,如神经网络等模型。本文不介绍这些内容,感兴趣的读者可以参考小白书《智能风控:原理、算法与工程实践》中的案例(如FM特征二阶交叉、LSTM序列挖掘、GBDT+LR特征局部交叉等)。

特征工程=特征提取+特征衍生+特征编码+特征筛选

这篇文章不会去介绍的内容包括:数据源分类、频次统计、时长统计、归一化、one-hot编码、WOE编码、过滤式、嵌入式、包裹式 特征筛选等内容。感兴趣的朋友可以参考一下书中的内容。小黑书对这一块做了比较详细地介绍,也确定了基本的流程与架构。

本文的主要的目的是,为 对如何深入挖掘变量感到迷茫的读者,提供一个技术框架与思考方向。

二、特征聚合

接下来开始介绍第一种特征挖掘的方法,叫作特征聚合,即将每个样本的变量通过各种运算,将单个特征的多个时间节点取值进行聚合的操作。特征聚合是传统评分卡建模的主要特征构造方法。本节为读者介绍业内实用效果较好的35种基于时间序列进行特征聚合的方法。

首先要提到的是,为了方便读者使用,我将本文用到的所有聚合函数写成了一个多进程版本的衍生函数,如果读者有需要可以跳转到代码块自取。他的调用方法非常简单。如下:

读到这里可能有的同学一头雾水。接下来详细的剖析一下这35种特征衍生方案。

举一个简单的例子,现在计算每个用户额度使用率,记为特征ft ,按照时间轴以月份p为切片展开,得到申请前30天内的额度使用率,申请前30天至60天内的额度使用率,申请前60天至90天内的额度使用率,…,申请前330天至360天内的额度使用率,于是得到相当于一个用户的12个特征,如图所示。

可以根据这个时间序列进行基于经验的人工特征衍生,例如设计一个函数,计算最近p个月特征值大于0的月份数。

1)计算最近p个月特征inv大于0的月份数。

之所以要用p和inv来代替月份和特征名,是因为在工业界通常都是对高维特征进行批量处理。所有设计的函数最好要有足够高的灵活性,能兼容特征和月份的灵活指定。对于函数Num来说,传入不同的inv取值,会对不同的特征进行计算,而指定不同的p值,就会对不同的月份做聚合。因此只需要遍历每一个inv和每一种p的取值,就可以衍生出更深层次的特征。

最下面有统一的代码,不过为了帮助大家掌握规律,又举了3个其中的例子。

2)计算最近p个月特征inv等于0的月份数。

3)求最近p个月特征inv大于0的月份数是否大于等于1。

4)计算最近p个月特征inv的均值。

...

等等。

我们一共有35种特征聚合的方法。在书中有详细的介绍。这篇文章为了节约篇幅,具体的解释和python代码,可以参考下面这个封装好的批量调用函数 feature_generation() 。原谅我不能提供企业级的分布式脚本,不过里面的每个函数都写了备注。比心❤。

虽然花了很多功夫打磨这个函数,但您其实在实际工作中是否使用了这个函数,我认为并没那么重要。关键是要知道哪些变量衍生是有意义的。在实际业务或者比赛中,知道如何进行特征聚合。或者对手工特征工程究竟有哪些思路有一个好的认识,我觉得都是更有价值的。

下面奉上此次的多进程(可单进程)版本变量衍生函数。友情提醒,服务器核数少于35个或数据量不大不要开多进程。不然进程开销远大于变量衍生的计算过程。

需要注意,通过这种无差别聚合方法进行聚合得到的结果,通常具有较高的共线性,其所具备的信息量并无明显增加,反而会为广义线性模型带来干扰,影响模型的鲁棒性和稳定性。评分卡模型通常对于模型的稳定性要求远高于其性能。因此通常时间窗口为1年的场景下,p值会通过先验知识,人为选择3、6、12等,而不是遍历全部取值1~12。并在后续建模中,根据变量显著性、共线性等指标进行相应的特征选择。减少变量存储与数据开销。

此外,由于部分函数逻辑对p有要求(比如修剪均值需要至少p为3才能计算),所以使用了try...except结构。月份也可以换成天或者年,切片越细变量越多,但稳定性可能下降。

有的同学可能对DFS算法有所了解。并且也知道有一个开源工具叫做Featuretools,可以从理论上实现特征的无差别自动挖掘。但是在实际业务中却很少有平台真的去使用它。其原因有二:一是生产效率问题,且特征有大量信息杂糅,对变量存储和模型部署都是一种负担;二是究竟从哪些角度做特征聚合,还是由人来决定的,缺少经验指导仍然不能找到正确的挖掘方向。 而上述内容的意义,是直接给出那些经过时间沉淀后被证实好用的衍生逻辑。并且通过多进程的逻辑精准快速的完成该过程。并且同时让读者触摸人工可解释特征工程的内核。

另外提供一种便于实际落地的方案。在hive中进行特征开发,只构造基础表。可以在每次离线建模过程中衍生特征,同时根据相关性和目标相关性,在衍生过程中筛选特征,最终入模特征通过python脚本自动生成其变量生成的hql脚本。直接部署上线。从而绕过hive中撰写UDF衍生变量后存储空间过大的问题。这在合理组织表结构后是完全可以实现的。

三、特征组合

特征组合(Feature combination),又叫特征交叉(Feature crossing),指通过不同特征之间基于常识、经验、数据挖掘技术进行分段组合实现特征构造,产生包含更多信息的新特征。如将{工作日,休息日},{上午,下午}两组特征维度进行组合,可以得到四个特征维度,其交叉逻辑如表所示。

除此之外,可以通过决策树模型,基于特定指标,贪心地搜索最优的特征组合形式。本节以CART回归树为例,使用一个书中的外卖平台骑手贷的例子进行演示。数据字典如图所示。

运行结果如下所示。

CART回归树的节点预测属性value表示当前子群中目标变量的均值。而当前标签为0和1的时候,目标变量的均值等价于标签为1的样本占当前子群样本的比例。

按照决策树结果,对本例子进行新特征构造。

利用决策树实现特征的自动组合,可以有效减少建模人员的工作难度。由于LR模型缺乏非线性学习能力,因此常需要和决策树模型结合,人工构造相应特征。这个过程可以更好的利用变量的局部性质,而不是在lr中那种只能利用变量的全局性质。这也是为什么XGBoost&LightGBM&CatBoost等树模型经常有远超线性模型表现的原因之一。另一部分原因主要是来自于集成模型的偏差优化。但是经过试验可以发现,使用lr作为元模型做集成,很多时候效果也是不如决策树做元模型的。

然而特征之间的组合并非任何时候都会取得好的结果。通常在建立线性评分卡模型时,建模人员会同时使用树模型进行训练并对比评分卡与树模型的结果。若两者结果相近,通常代表特征之间的组合对模型的提升较为有限。

四、总结

本文为读者介绍了2类特征挖掘方法。其中包括35种特征聚合的方案,以及如何通过树模型提供特征交叉的指导方向。其实细心的读者可能还会在其中发现许多小的知识点。依旧是那句话,也许不对,也许没用。不过还是希望读完这篇文章对您有所帮助。感谢阅读。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 SAMshare 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景
  • 目录
    • 一、特征生成
      • 二、特征聚合
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档