本期沙龙由普华永道高级经理王媛女士和软开六部数据分析师吴正良共同为大家分享数据挖掘的应用案例,王媛女士分享的主要内容是如何利用数据分析和建模工具,搭建应用于反洗钱合规管理的智能化可疑交易筛选模型,吴正良本次分享的主要内容是随机森林调优及在贵宾客户流失预测模型中的应用。同时,厦门分行和黑龙江分行科技部门也参与了这次分享。
首先由王女士为大家讲解智能化可疑交易筛选模型,先从政策方面解读央行对可疑交易的管理办法,强调对可疑交易识别的重要性。指出目前多数金融机构的反洗钱系统均是基于规则的专家模型。专家模型的局限性有:
1
同一规则中只能串入有限的特征;
2
规则中不同特征间只能体现“且”或者“或”的关系,而无法体现出特征的权重;
3
阈值设定依赖于人工经验;
4
规则扩展性有限:专家规则一旦形成,将很难根据新的可疑行为进行快速扩展,且扩展成本高。
从而引出机器学习模型具有维度无上限,模型准确率高,洗钱环境自适应,自动学习,优化模型等优点。
之后讲解了反洗钱可疑交易监测系统总体技术路线图。
然后王女士从四个方面详细阐述了反洗钱可疑交易监测系统的建设过程。最后展望反洗钱管理工作:
1
关注反洗钱合规:应对FATF评估及人民银行监管,开展反洗钱风险评估及审阅;
2
提升反洗钱工作效率:优化可疑交易监控模型,不断提升上报率;预警率、准确率、召回率取得有效平衡;考虑在KYC、可疑交易调查、可疑交易报送等领域部署机器人应用,减少人员手工工作,降低错误率,提升效率;对反洗钱数据进行质量检视和治理,夯实反洗钱管理基础。
本期沙龙第二部分由软开六部数据分析师吴正良为大家讲解随机森林调优及在贵宾客户流失预测模型中的应用。吴正良首先从决策树定义出发,引出随机森林的定义,然后分别在数据的随机性选取、待选特征的随机选取两方面讲解随机森林具体如何构建。
然后又具体讲解了Python SKLearn库中RandomForestClassifier的参数,指出随机森林调优的目的是偏差(bias)和方差(variance)的协调,整体模型的训练过程旨在降低方差。
然后讲解贵宾客户流失项目的基本情况,在特征选择后选择181个特征进行随机森林建模。项目借助sklearn.grid_search库中的GridSearchCV类对n_estimators、criterion、max_feature、max_depth、min_samples_split、min_samples_leaf、max_leaf_nodes等参数进行网格调参,不断地优化模型。
综合下来,调参后模型的召回率提升较大,达到了调参的效果。
最后,嘉宾又强调数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已,数据和特征才是预测结果好坏的关键。
顾 问:赵维平
董晓杰
主 编:张 勇
轮值编辑:刘 远
刘 念
耿元振
冯 建
轮值审稿:段胜荣
领取专属 10元无门槛券
私享最新 技术干货