首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据模型是什么?哪些

摘要:在互联网金融行业,不少人可能这样觉得:认为只要数据够“大”,就能有最牛逼的体系和行业最低的坏账率。...其实,做大数据是一个挺细致的事儿,大数据,重要的不是数据本身,而是对数据的理解。...大数据模型是什么 指标体系 大数据圈流行一句话:数据决定了数据分析的上限,而模型做的是逼近这个上限。...; 交易数据:借款相关交易频次、金额,还款等; 第三方数据:一类是电商、社交、搜索、新闻、物流等信息的爬虫或接口导入;一类是设备信息的读取,还有一类是向第三方征信和风公司进行购买。...模型 大数据更多应用与小微互金贷款,因此更多是还款意愿的控制,欺诈风险会比较高,因此构建好的反欺诈模型就非常重要,目前一般分三种: 1.

1.2K20

建模中的自动分箱的方法哪些

自动分箱的常用方法哪些?评估分箱效果好坏的方法哪些? 如果篇幅允许,就顺便把实现的Python代码也分享下,如果太长了就另外起一篇文章来讲。因此,本篇文章主要从下面几个模块来展开说说。...02 常见的自动分箱方法哪些? 03 如何评估分箱效果的好坏 04 设计一个基于建模的自动分箱轮子 01 分箱是什么意思,为什么要分箱,什么时候分箱?...要回答这个问题,我们先要搞清楚分箱的好处哪些,主要有2点: 1)对变量进行分箱后,会对异常数据有较强的鲁棒性,变量会更加稳定; 2)变量分箱后,对于建模常用的LR,这种表达能力有限的线性模型,可以提升模型的表达能力...Actually,对于评分卡的大多数模型,是可以的,只不过有些模型,如果直接把连续变量进入模型的话,带来的模型效果会不太理想。...《建模的WOE与IV》 04 设计一个基于建模的自动分箱轮子 一般来说,如果要造一个基于建模的连续变量分箱框架,需要考虑什么内容呢?

2.4K31
您找到你想要的搜索结果了吗?
是的
没有找到

ML | 建模的KS

我们这做模型的时候,经常是会用KS值来衡量模型的效果,这个指标也是很多领导会直接关注的指标。今天写一篇文章来全面地剖析一下这个指标,了解当中的原理以及实现,因为这些知识是必备的基本功。...不过这不影响我们去使用它,我们只需要知道在中是怎么实现的,并且在实际场景中怎么去使用它就可以了。就如上面我们说的,KS在主要是用于评估模型的好坏样本区分度高低的。什么是区分度?...通俗来说,就是模型预测结果排序分桶后,每个桶的好坏样本占比的排序性,也就是说不同的桶,坏人的识别能力都不同,我们可以通过“拒绝”坏人比较多的桶从而来实现风险控制。比较抽象?...可以看下图: 从业务上来说,就是越往后的箱子,客户的质量越差,rate整体上呈现单调性,从而可以把大多数的坏人,直接从箱的维度上就可以区分开来了,在后续的策略使用体验上十分友好。...03 KS的效果应用 KS的值域在0-1之间,一般来说KS是越大越有区分度的,但在领域并不是越大越好,到底KS值与模型可用性的关系如何,可看下表: 004 KS的实现 首先我们来对上面展示的例子进行

4.3K30

何为

定义 是风险控制的简称,在百度百科中是这么定义风险控制的。 在我们日常生活中随时可见,小到账户登录验证码,都可以算是一种的手段。...这里我们着重了解下信贷下的,结合了场景的,则赋予了更多的意义。...信贷的目标是「利益最大化」,而不是没有风险,在风险和利润之间找到平衡,是信贷的核心。...看上面表格,我们可以发现,风险等级 A、B、C 的客户都能给公司带来不错的利润,但是风险等级 D、E 的客户则会给公司带来负利润,如果我们把风险等级 D、E 的客户直接拒绝掉,利润则会上升到 95000000...,以及在信贷场景下的如何实现,的目标永远是降风险,但不是一味地降,在不同场景下有不同的考虑。

1.4K21

ML | 建模的WOE与IV

ML」系列文章,主要是分享一下自己多年以来做金融的一些事一些情,当然也包括建模、机器学习、大数据等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步!...第一次接触这两个名词是在做模型的时候,老师教我们可以用IV去做变量筛选,IV(Information Value),中文名是信息值,简单来说这个指标的作用就是来衡量变量的预测能力强弱的,然后IV又是...范围 变量预测力 <0.02 无预测力 0.02~0.10 弱 0.10~0.30 中等 `> 0.30 强 虽然可能这个指标还是很容易就可以使用,但是了解它的原理是十分重要的,这对于我们深入理解变量很大的帮助...我们这份名单上,客户的年龄字段,那么我们可以拿来计算一下这个字段对于是否成功添加好友(响应)多大的预测能力,我们在Excel中进行实现: 可以看出来,这个变量对于我们是否可以成功加到客户微信好友有着很强的预测能力...这边一些细节的东西需要说明一下的。 1)注意区分变量类型,数值型变量和类别型变量要区分对待。 2)注意分组后是否出现某组内的响应(未响应)数量为零的情况,如果为零需要处理一下。

3.4K20

信贷模型搭建及核心模式分类

因此,科技较为领先的金融服务公司会选择采用模型方式完成对借款人的自动评估与审批。目前,对于信贷审核来说主要基于的模式为IPC、信贷工厂、大数据三种,每一种都有自己不同的侧重点。...B.风险定义 简单地说就是判定哪些是好客户,哪些是坏客户。 互联网金融业务模式的多样性,导致了对好客户和坏客户的定义标准也不尽相同。 这里有人会问:“怎么会呢?欠钱不还的不就是坏客户么。”...直到我们和某P2P公司经理实际交流后才明白这其中的含义。在传统银行信用卡业务中,是很喜欢这类少量逾期的客户的,因为他们能给银行创造罚息,但是又不是恶意违约那种客户。...另外,很多金融公司模型的设计不管是对于最终高评分的用户还是对于存疑的进见,都需要最后的人工进行确认。...所以说,模型的计算策略和机制在一个公司属于绝密,规则除了核心的员工,其他人是不能知道规则的。 四、的核心 如果说金融产品的核心是,那么的核心是什么?

1.9K10

支付模型

本文重在介绍建立模型的方法,每个公司应该根据自己的实际业务情况和开发能力来选择合适的模型。这里列出来的模型仅为了说明问题,提供参考。...一、风险等级 做拦截,首先要回答的问题是风险等级怎么划分? 目前主流的风险等级划分三种方式, 三等级、四等级、五等级。 三等级的风险分为 低风险、中风险和高风险。...一旦漏洞被发现,会对公司造成巨大损失。 而机器学习是解决这些问题的利器。 互联网金融离不开机器学习,特别是支付。 在各种支付模型中,决策树模式是相对比较简单易用的模型。...当一笔交易发生时,我们使用决策树来判断这笔交易是否是高风险交易。 这种模型的优点是非常容易理解,检测速度快。 因而也是现有机构中常用的模型之一。 模型存在的主要问题是其产生的结果比较粗略。...虽然银行间的评分模型很好的参考价值,但互联网公司由于业务和数据的不同,评分模型参考价值不大。 每个公司需根据自己的业务情况来制定评分模型,之后为各个指标指定权重比例。

1.7K21

1.1 原则

risk appetite的顾虑和流程 Board应该和Management应该一起决定risk appetite: 定性哪些风险可以忍受,哪些不可以忍受(qualitatively tolerate)...定量可以忍受的最大损失(quantitative tolerate) 通过压力测试哪些损失可以忍受(不需要缓解),哪些损失不可忍受(需要缓解) 公司必须在启动业务以前通过risk management...由于采购和销售不同国家的产品影响income,所以Operation Risk 采购和销售的产品价格会变化,所以Pricing Risk 和外国交易,payment是外币,balance sheet...Risk Advisory Director角色是审核和分析: 公司的风险管理政策 公司的周期风险管理报告 公司的appetite和对商业策略的影响 公司的内部控制 公司的金融报告和揭露 公司相关方的信息...4.开发风险系统 关键技能: 1.领导力 2.说服力 3.能力保护公司资产 4.理解所有风险的技术技能 5.教育board和业务条线的顾问技能 和其他高管合作: 汇报给CEO/CFO,还有和board

2.4K60

ML | 中的异常检测原理与应用

今天来介绍一下中的异常检测,从最基础的概念开始讲起,因为本人对这块的内容平时工作也做得不多,更多滴偏向于“纸上谈兵”,什么说得不对的地方,也欢迎各位朋友指正~谢谢。...异常检测的概念 02 异常检测的难点 03 异常检测的分类及常见算法 01 异常检测的概念 异常检测(Anomaly Detection 或 Outlier Detection),又称为离群点检测,在我们领域很多地方都会用到...,比如薅羊毛的、团伙骗贷的、个人骗贷的,基本上都混合在一起,不利于监督模型的开展。...代表的算法K-Means、Self-Organizing Maps(SOM)、GMM,其缺点和第一类一样。 3、小簇的点都是异常点。代表的算法CBLOF、LDCOF、CMGOS。...0308 基于机器学习和深度学习的算法 机器学习模型,这里指的是监督模型,常用的算法LR、SVM、GBDT、XGBOOST等二分类模型,用于识别异常样本。

2.3K20

ML | 建模中怎么做拒绝推断

04 做拒绝推断都有哪些方法?...04 做拒绝推断都有哪些方法 这里的方法介绍,我在知乎上看到汪哥的相关文章,写得真的是太棒了!我比较难超越了,就把他的原文链接贴过来,大家可以去看看哦。...《建模中的样本偏差与拒绝推断》https://zhuanlan.zhihu.com/p/88624987 不过我也还是把他文章里的分类体系在这里重点再次分享一下。...06 总结一下 本文算是一个对拒绝推断的入门介绍了,让初涉模型的同学一个相对来说比较清晰的全局认识,这里面涉及到的很多算法模型上的细节并没有展开来讲,因为我觉得这也会让阅读带来比较大的负担,公众号的文章还是要控制在几分钟内读完比较合适...Reference [1] 异常检测算法分类及经典模型概览 https://blog.csdn.net/cyan_soul/article/details/101702066 [2] 建模中的样本偏差与拒绝推断

1.5K30

【案例】大型持牌消费金融公司——智能体系构建

客户名称/所属分类 大型持牌消费金融公司· 任务/目标 由于新金融业务的迅速普惠化,金融客户也面临着崭新的挑战和需求。...一方面由于客群下沉,可获得的用户信息愈发受限,数据质量参差不齐,传统经验无法直接应用,急需利用先进技术来提升能力; 另一方面互联网金融往往小额量大,基于人工的成本过高,用自动化的数据智能体系来提升整个流程的效率也是必然的发展趋势...,哪些场景该用哪些数据?...实施过程/解决方案 上述三个方面的挑战贯穿的各条业务线,此次案例的解决方案着眼于核心的反欺诈和授信两个阶段来阐述如何解决这几个问题,并构建一整套完整的申请贷前体系。...企业介绍: 氪信CreditX是一家独立的第三方金融人工智能公司,致力于在金融风险领域运用高维数据处理和机器学习技术,为企业和金融机构提供场景化的解决方案和产品体系。

1.6K81

ML | 建模老司机的几点思考与总结

ML」系列文章,主要是分享一下自己多年以来做金融的一些事一些情,当然也包括建模、机器学习、大数据等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步!...那么在了解了业务需求后,接下来就需要针对具体的需求,继续咨询业务方一些业务知识点,而不是了一点眉目就马上开工,毕竟模型还是做出来还是业务在用,事先沟通好一些细节性的问题也是无碍,而且沟通的过程可以让你对业务更加深入的了解...而在开始搜集数据前,需要了解几点内容: 1、模型应用节点 2、时效性要求 2、有没有预算,预算多少 3、项目紧急程度 模型应用节点 模型的应用节点,决定了你哪些变量是不可以用的,避免说出现“事后变量...当然,很多时候,我们都会是用公司已经接入的数据源来开发特征的了。 项目紧急程度 这个不仅是对于模型开发项目,其实所有的项目都是需要的,了解清楚项目所能给的最大时长,做好项目计划,马上开始工作。...更加细致的数据挖掘过程这里就不展开,很多好的书籍和开源代码可以参考。

1.3K30

为本创新驱动,券商如何实现智能加速?

合规始终是公司的首要核心竞争力,该券商不断推进全面风险管理体系建设,需要全方位提升主动合规控管理能力,进而提升风险管理精细化、智能化水平。...而由于合规处于企业核心竞争力的高度,原数据积累10年,数据量已超30TB。...非现场平台各项报表和查询生成时间逐渐拉长。夜间批量任务越来越慢,部分任务出现超时失败现象。 02 原合规数据库数据量巨大,原有的传统的备份手段难以实现数据的实时保护。...价值提升 1 通过QData数据库云平台大幅提升了系统的业务效率,日终调度业务从原十几个小时缩短至1.5小时,性能提升10倍以上。...公司还专门打造了基于QData的集中式结构化数据处理的数据仓库,这是大数据平台的一部分。

1.1K10

决策引擎经验

一套完整的体系,在中,少不了决策引擎,今天就浅谈一下决策引擎。 一、优先级 决策引擎是一堆规则的集合,通过不同的分支、层层规则的递进关系进行运算。...系统的作用在于识别绝对与标识相对风险,如果是绝对,则整套的审核结果便将是“拒绝”。既然结果必然是“拒绝”,则没必要运行完所有的规则,而主要单条触发“拒绝”即可停止剩余规则的校验。...2、规则上的“参数”可调整与灵活配置 举例说明:很多风体系通常会加入对手机运营商的校验,所以一些规则,诸如校验用户手机号的使用时间长度是否大于6个月。...三、记录与统计 最终到底是“跑出来”的,所以,整个系统对所有不同规则的触发需进行有效的记录与统计,以便后期可支持数据分析与模型调整的相关工作。...但若是延伸的提额功能模块,与可根据用户前端不同的输入项数据,而输出与之相匹的不同的额度与费率的产品,则此时需要模型化。 建模需借助于函数的定义,此外也可以借助评分卡的机制进行补充。

1K30

建模整体流程

确定建模目的 在信贷领域中建立模型是为了找出可能会逾期的客户,根据逾期的可能性和资金的松紧程度选择是否放贷。 在支付领域建立模型是为了找出可能存在非法经营的商户,保证商户没有违法经营。...确定好坏样本逻辑 在信贷领域中逾期大于x期(不同公司取值不同)的客户定义为坏客户(1),从未逾期的客户定义为好客户(0) 在支付领域中,赌博、欺诈、套现、伪卡等行为的商户定义为坏商户(1)(具体根据模型要防的风险决定...特征工程 在领域一直都有这样一句话 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。通俗的讲就是衍生变量去捕获风险客户。...模型上线 在支付领域如果模型验证没有问题,一般会上到线上,自动生成案例。在信贷中会模型搭配规则,判断申请贷款的人是通过放贷、拒绝放贷、还是转人工处理。...本文所讲的都是大致流程,没有深入展开分析,在之后的各期中会逐步展开这里所讲的每一小点,给所有需要从事模型的同学一点建议。 以上都是我在建模过程中的一点经验总结,不正之处恳请指正!

1.9K20

ML | 模型报告以及上线后需要监控的内容

一个优秀的模型上线报告以及一个优秀的上线后模型监控报表,在我们日常建模中是非常的常用并且有用的,今天这个话题就来和大家聊聊怎么去制作优秀的模型上线报告以及上线后的模型监控报表,主要聊聊思路,先要有一个全局的感受...以下内容均基于自己浅薄的经历提炼的,如有纰漏,欢迎指正或补充哦,欢迎交流~ 00 Index 01 聊聊为什么要做这件事 02 标配的模型上线报告应具备哪些内容 0201 模型现状 0202 KS值与各种曲线...02 标配的模型上线报告应具备哪些内容 0201 模型现状 想要突出你模型的好,你得先分析旧模型的不好。 比如说,把目前线上模型的实际表现进行统计,如KS值、分组排序性、PSI等基础指标。...一般情况下,我们会对预测结果按照一定的阈值,进行分组,比如分为A/B/C/D/E/F共6组,越靠后就意味着越有可能是高风险客户,我们给予一定的规则进行拦截。...0303 客群稳定性监控 随着时间的推移,我们的客群可能会因为这种原因而导致分布发生了改变,比如我们拒绝通过的客户、策略放松收紧、宣传方式改变、政策改变等等,会让当下的进件客群的好坏分布情况,与当时建模时候的客群分布较大的差异

2.7K20

实时业务系统

账号:垃圾注册、撞库、盗号等 交易:盗刷、恶意占用资源、篡改交易金额等 活动:薅羊毛 短信:短信轰炸 项目介绍 实时业务系统是分析风险事件,根据场景动态调整规则,实现自动精准预警风险的系统。...需要解决的问题 哪些是风险事件,注册、登录、交易、活动等事件,需要业务埋点配合提供实时数据接入 什么样的事件是风险的,风险分析需要用到统计学,对异常用户的历史数据做统计分析,找出异于正常用户的特征 实时性...,风险事件的分析必须毫秒级响应,有些场景下需要尽快拦截,能够给用户止损挽回损失 低误报,这需要人工经验,对各种场景风险阈值和评分的设置,需要长期不断的调整,所以灵活的规则引擎是很重要的 支持对历史数据的回溯...,能够发现以前的风险,或许能够找到一些特征供参考 项目标签 轻量级,可扩展,高性能的Java实时业务系统 基于Spring boot构建,配置文件能少则少 使用drools规则引擎管理规则,原则上可以动态配置规则...; 扩展规则,针对需要解决的场景问题,添加特定规则,分值也应根据自身场景来调整。

2K10

数据体系-简介

早期传统金融的主要利用了信用属性强大的金融数据,一般采用20个维度左右的数据,利用评分来识别客户的还款能力和还款意愿。...结合中国互联网发展,以及目前的征信监管要求,对可用数据及可用类数据做一个全面的梳理。...2.数据来源 2.1 数据应用逻辑 常见流程中,客户准入时提供的资信材料有限,业务机构数据体量不足,仅仅根据内部风险数据进行风险评估会非常片面,无法全面的把某位客户的风险情况,所以通常需要依赖于第三方供应商提供数据作风支撑...,也包括贷款机构购买市场信息来决定联系哪些客户。...4.2 明确需求 建议:回顾第二节数据应用逻辑关于业务类型、风险类型、流程、风险画像等的介绍。

3.7K64
领券