高并发风控技术解密(上)

风控在任何一个公司都是比较神秘的存在,不仅线上很少分享,从安全角度讲也很少对外披露它的架构及设计。本人将就参与的风控建设谈谈风控的技术。(本文来源于本人内部分享PPT,仅从技术角度探讨风控体系建设,不涉及公司内部机密,限于篇幅,一些细节没能交待完整)

风控架构演进

  经过1年多风控系统的建设,已经将公司内部风控系统从业务代码为主的风控架构改造为了平台化为主的2代架构,进而改造成为动态化及离线数据模型化的2.5代架构,正在向深度学习,在线数据模型的3代架构上演变。

  不得不说,与阿里,腾讯,京东等大厂相比,公司的风控体系还相对比较薄弱,但在有限的资源下将整个体系建设推进到目前的程度已经比较满意。

 技术架构

  首先来看目前风控的技术架构,从业务及架构层面将风控划分为五大体系:分别是存储体系,识别体系,支撑体系,运营体系,数据计算体系。

  其中存储体系包括hbase,mysql,redis,es,hive,实际上都利用了现有的框架或开源项目。

  识别体系包括控制平台(控制系统,批处理系统,决策系统,总线系统),处罚平台(处罚系统),分析平台(规则系统,模型系统), 数据平台(数据系统,运营数据系统)。

  支撑体系主要是指后台配置系统。

  运营体系主要是指风控运营系统,kibana报表系统。

  数据计算体系主要指大数据及离线计算平台及基于其上的数据分析业务。

  其调用关系如下图:

 业务架构

  其次,来看整个系统的业务架构。目前已经初步具备的

  业务能力有,营销作弊,交易欺诈,登录注册防控,内容防控

  数据模型能力有,用户画像及风险评级,关联反查,风险大盘,各类报表等

  运营能力有,用户预警,商户预警,案件审核,综合信息查询

  并且基于现有的数据,分类整理并形成了自身的数据资产,分别为名单类,用户类,设备类,环境类,位置类。

风控系统的性能表现

  下图是生产环境压测效果,采用12000用户并发压测得到约8w TPS,平均响应时间为141ms,错误率在万分之五。

  其中积累的有效请求达到1.7亿,数据量达8TB

风控系统建设的难点

灵活高效的接入:通常只有1周甚至更短时间,业务复杂多样;如何减少发版失误和事故

极短的响应时间:业务通常只给100ms,最多200ms的超时

并发吞吐要求高:接入业务较多,调用量大;有的业务用风控抵挡攻击

大量数据处理:数据量相对较大,如何有效利用;数据查询回溯要求较高

对抗升级:攻击者不停猜测内部规则;数据如何为对抗服务

大促稳定性:如何保证调用量增加后不宕机;如何在出问题情况下依然服务

  下篇将针对这些难点一一详细描述如何去解决。

What else?

多租户及开放平台服务

由于公司内部有多个子公司都想通过风控系统去自行控制,因而将数据隔离的多租户就尤为重要了,对于不同的租户而言,使用的是同一个平台同一套系统,但是所有的界面,数据计算,报表都只会看到本租户下的数据,而不能越权到其他租户,多租户本质上是一种权限控制,但是相比权限,其隔离更深更彻底。

另外,由于风控积累数据及服务已经较多,许多外部系统都想共享风控的数据和服务,将风控的部分业务作为开放平台提供服务也是深化风控改造的重要步骤。

规则效能分析

对于规则的设定只能凭经验,规则到底定得好不好也需要有数据衡量,规则效能分析就是用来衡量规则有效性的手段。

基于神经网络的反欺诈

基于这篇论文,将每次session的点击序列输入RNN,提供适当风险样本,让其识别风险session《Session Based Fraud Detection》反欺诈这方面可以做得更多,但是神经网络在可解释性方面太差,这种场合被控了申述时毫无反驳理由。不过不失为一个判断依据。

智能运维

对于线上系统,从智能运维到智能决策,从熔断到自愈,寄往于系统可以做到自动决策,某些问题自动修复。

TimeWheel算法

  对于风控这种时效要求较高的应用,需要在请求时控制超时。通常,这种控制超时的方式是新起一个线程,通过控制线程的执行时间来控制超时,在大压力时,大量线程会给整个系统的CPU切换带来负担,能否只用一个线程控制所有超时的计算,这样一来,将大大减小线程数量,将CPU负载降低。

  如下是一种称为Timewheel的算法,实际上是模仿TCP发送包之后用来计算超时的算法,试想,如果操作系统底层对每个tcp包都新建一个线程来计时,那操作系统早挂了。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏祝威廉

推荐系统之眼

这半个月除了工作上的事,一直忙于学习机器学习基础理论,每天背着四五本书上下班,还蛮有读书时的感觉。之前写了一篇文章,叫基于用户画像的实时异步化视频推荐系统,应该...

1372
来自专栏SDNLAB

现代数据中心标准COTS服务器的演进

数据中心内的x86商用成品(COTS)服务器的标准化已经经过了很长时间,因为该架构提供了多功能、低成本、易于集成、更有效地维护和管理配置文件,总而言之,其成本低...

3344
来自专栏云市场·精选汇

做关键词排名优化的核心是什么?

关键词排名优化一直都是新手站长最头痛的事情,往往做了很多工作,却见效不大。下面就由耐思智慧小编给大家分享一下做关键词排名优化的核心步骤,掌握这个核心步骤再去优化...

1146
来自专栏FD的专栏

写一篇好的技术文章有多难?

注意:这里所指的技术文章,不是某个问题的相关回答。而是着重于一些知识要点、架构等等,复杂的文章。

932
来自专栏DevOps时代的专栏

DevOps 三步工作法之持续反馈的技术与案例

导言 很高兴参与DevOps时代社区的拆书联盟第一季活动,有幸能与几位DevOps大牛一起解读《DevOps Handbook》一书,这本书作者牛,内容也很牛,...

2727
来自专栏熊二哥

项目管理深入理解04--时间管理

进入比较重要的时间管理一章,重点是对WBS,工作单元,活动,资源,时间这一条线索的理解,熬夜加班到4点,继续俺的学习了,正好等等联调数据的状态,加油,熊二。 ...

2296
来自专栏程序你好

符合架构的测试

871
来自专栏技术翻译

7个强大的聊天机器人搭建平台

FB Messenger,Kik,Slack,Telegram和WeChat是一些流行的聊天机器人发布平台。

2922
来自专栏腾讯开源的专栏

【开源公告】面对面翻译小程序正式开源

免费开放微信AI团队在机器翻译,智能语音领域的业界领先成果,使开发者简便地在小程序中加入机器翻译,智能语音能力。

9.8K6
来自专栏鹅厂网事

大数据在服务器运营中的应用

前言 腾讯公司从2012年开始,通过对服务器运营流程、工具系统的建设,服务器从一线到三线的运营基本转入线上自动化。在服务器静态配置、动态的运行状态和生命周期各个...

2797

扫码关注云+社区

领取腾讯云代金券