原创:基于机器学习的车险理赔风控模型

1.车险欺诈概述

保险欺诈不仅损害保险消费者的权益,同时造成保险服务资源浪费,增加保险公司的成本,破坏正常的市场秩序。

形成保险欺诈的原因很多,不仅有社会、经济、人性的因素,也牵涉到保险公司内部管理和社会法律环境等因素,我国绝大部分财产险公司,车险业务占比在70%以上,车险的经营具有链条长、涉及主体范围广、索赔便捷等特点,很容易成为恶意欺诈者的攻击对象。

当前,车险欺诈呈现多样化、团伙化和专业化等特点。车险欺诈的数量不断上升,且欺诈类型日益多样和隐蔽,比如通过伪造事故现场、车辆套牌、更换驾驶员、伪造理赔单等多种方式骗赔,进行车险欺诈;车主勾结同伙,修理厂勾结代理机构,保险公司内部人员与社会人员内外勾结,车主与医院联合造假;作案手法专业性越来越强,极具隐蔽性。

对车险查勘定损及理赔流程比较了解,作案现场布置的很有迷惑性,伪造的交通事故责任认定书及医院诊断证明材料以假乱真等。

据保监会统计数据分析,2016年车险欺诈占到理赔总额的10%-20%,约600亿元。我国车险欺诈索赔额占赔付总额比率远高于全球平均水平,因此,开展反欺诈研究刻不容缓。

2.基于机器学习的风控模型

在目前商车费改进一步深化的行业背景下,积极运用前沿大数据及AI技术,从事前承保业务筛选、事中理赔管理、事后理赔质检,通过智能化、模型化来提高车险理赔风控管理的综合能力,建立全覆盖、无死角的反欺诈风控体系。

2.1模型的构建

1)主要任务

根据历史案件数据及反欺诈数据,建立典型欺诈案件及特殊案件识别模型。接到客户报案后,触发模型生成表示案件欺诈风险等级的红黄蓝标识。根据案件的红黄蓝标识,进行差异化调度。实现以“经营客户”为理念差异化理赔服务方式。

2)本项目实施方法

结合理赔过程中涉及到的数据特征以及项目应用场景的精确度要求,选择xgboost算法,通过机器学习反复进行算法参数调优,最终构建出满足实际需要的工程模型,以快速、准确地识别出欺诈及特殊案件。

3)建模的流程

如下图所示:

4)机器学习的应用

机器学习的核心是特征工程和模型训练,下面从这两个方面阐述机器学习的应用。

特征工程

本项目从承保、报案、理赔三个方面出发,结合理赔业务知识,经过数据的整合、清洗、交叉、衍生共生成300+个特征,经过特征重要性的排序筛选出重要变量。

模型训练

XGBoost是近几年应用机器学习领域内一个强有力的武器

–执行速度:确实比其他Gradient Boosting实现快

–模型性能:在结构化数据集上,在分类/回归/排序预测建模上表现突出

在Kaggle和KDD等一些数据科学竞赛平台上的优胜方案中多数使用了Xgboost算法。

本项目采用Xgboost算法,经过不断的迭代训练,最终确定最优参数组合:

模型中决策树的数量n_estimators=500

每棵树的深度max_depth=4

学习速率learning_rate=0.05

L2正则化项的权重reg_lambda=5

2.2模型的应用

1)模型使用前:

模型使用前,接到客户报案后发出调度的指令,需经过查勘员现场查勘才识别案件风险,本可以一键理赔的案件却走了较繁琐的理赔流程,这样增加了公司的运营成本,另一方面也可能流失现有客户,对公司业务造成损失。

2)模型使用后:

接到客户报案后,直接触发模型,从而生成表示案件欺诈风险等级的红黄蓝标识。然后根据案件的红黄蓝标识进行差异化调度,对不同标识的案件作出不同的调度指令,实现了以“经营客户”为理念的差异化理赔服务方式;以去中间化为措施差异化理赔流程;以管理资源为核心提高资源利用率,打造“透明理赔”的服务模式。如下图所示:

3.总结

在整个体系中对于案件的风险等级的准确判别至关重要,是后续配置相关理赔业务流程的基础。在本项目中,引入机器学习算法,利用现有数据资源建立风险评分模型来识别案件风险,一改传统做法中案件风险识别依赖查勘员个人经验所带来的低效、不准确、标准不统一等等不足,极大地提高了保险公司理赔服务水平。

作者:丁奎云阳光产险

注:数据阳光原创,转载请注明出处

数据阳光|改变未来

本文来自企鹅号 - 数据阳光媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏媒矿工厂

AI如何用于现场直播场景

与许多产业一样,通过软件和算法辅助,电视与视频制作很可能被人工智能和机器学习所改造,而当前这些制作任务都是由人来执行。随着现场直播报道涉及的范围越来越广,而相关...

4053
来自专栏大数据文摘

资源 | 机器学习高质量数据集大合辑

在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。

1344
来自专栏AI研习社

CVPR 2018 图像压缩挑战赛结果出炉,腾讯音视频实验室压缩性能第一

雷锋网 AI 研习社按,CVPR 2018 图像压缩挑战赛(CLIC)结果已经出炉,腾讯音视频实验室和武汉大学陈震中教授联合团队于该项挑战赛上取得压缩性能第一。...

1352
来自专栏数据冰山

听说,SuperMajor,血魔和兽王更配哦

为什么要借用这个句式?因为本文要讨论的是——在刚刚结束的「中国DOTA2超级锦标赛」上,职业队选择的英雄之间,是否存在有价值的关联关系?这些英雄组合的胜率如何?

972
来自专栏AI研习社

告别五毛特效,AI 轻松再现多层材料质感

在影视作品和网络游戏中,往往需要通过计算机技术制作出大量的虚拟图像,例如建筑、车辆、甚至是河水山峦,从而降低制作成本、保证演员的安全、增强观众或游戏用户的视觉真...

1233
来自专栏磐创AI技术团队的专栏

资源 | 机器学习高质量数据集大合辑

在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。

944
来自专栏人工智能头条

干货 | 陪伴我学习NLP、知识图谱的那些资源(教程+书籍+网站+工具+论文...可以说很全面了)

【人工智能头条导读】作者一年前整理了这份关于 NLP 与知识图谱的参考资源,涵盖内容与形式也是非常丰富,接下来人工智能头条还会继续努力,分享更多更好的新资源给大...

4721
来自专栏大数据挖掘DT机器学习

【趣味】数据挖掘(1)——"被打"与"北大"的关联

小时候喜欢读趣味数理化,所以久有一个小心愿,写一组趣味数据挖掘的科普博文。要把数据挖掘的一些概念讲得通俗有趣,需要好的例子,正搜寻中,一个有趣的、适合解...

3576
来自专栏CDA数据分析师

《谁动了我的奶酪》中的粒子群算法

本文为作者郭飞原创,CDA数据分析师已获得授权 1、《谁动了我的奶酪》是讲啥的? 其实这本书是一碗上古的老鸡汤。 故事大概是这样的,有4个小生命,其中有两只老鼠...

2276
来自专栏ATYUN订阅号

Nvidia开放Clara医疗保健平台和医疗成像AI工具,并宣布新的合作伙伴关系

医疗保健仍然是AI应用和服务增长最快的市场之一,预计到2021年总体价值将达到66亿美元。AI系统可以分析超声波扫描,检测眼部疾病,并加快X射线和计算机断层扫描...

1543

扫码关注云+社区

领取腾讯云代金券