首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ML | 的异常检测原理与应用

今天来介绍一下的异常检测,从最基础的概念开始讲起,因为本人对这块的内容平时工作也做得不多,更多滴偏向于“纸上谈兵”,有什么说得不对的地方,也欢迎各位朋友指正~谢谢。...异常检测的概念 02 异常检测的难点 03 异常检测的分类及常见算法 01 异常检测的概念 异常检测(Anomaly Detection 或 Outlier Detection),又称为离群点检测,在我们领域很多地方都会用到...抽象来说,就是需要从一堆数据,找到那个“邻舍不同”(粤语)的点,并能够给出合理的判断和解释。 02 异常检测的难点 为什么说异常检测很难呢?...主要有几个原因: 1)异常点和噪声会混杂在一起,机器难以具体识别开来; 2)现实很少有异常点的标签,因为标签越多也就意味着遇到过的异常越多,也不符合常识认知; 3)对于标签的定义也是很难,比如1个金融场景...所以很多时候我们在操作的过程,会先用无监督方法挖掘出异常样本,再基于这些样本去做有监督模型挖掘更多的异常点,这中间也多了一层转化,所以准确率和置信度上也有一定的下滑。

2.5K20

ML | 建模怎么做拒绝推断

02 为什么要做拒绝推断 在我们的生活,有很多关于幸存者偏差的例子,比如我们身边的同事月收入都是过万,就误以为大多数人都是这样子,身边的人都是本科毕业,就以为大多数人都上过大学。...《建模的样本偏差与拒绝推断》https://zhuanlan.zhihu.com/p/88624987 不过我也还是把他文章里的分类体系在这里重点再次分享一下。...以上的5个步骤,就是实施拒绝推断推断法之一的展开法。...06 总结一下 本文算是一个对拒绝推断的入门介绍了,让初涉模型的同学有一个相对来说比较清晰的全局认识,这里面涉及到的很多算法模型上的细节并没有展开来讲,因为我觉得这也会让阅读带来比较大的负担,公众号的文章还是要控制在几分钟内读完比较合适...Reference [1] 异常检测算法分类及经典模型概览 https://blog.csdn.net/cyan_soul/article/details/101702066 [2] 建模的样本偏差与拒绝推断

1.6K30
您找到你想要的搜索结果了吗?
是的
没有找到

ML | 建模GBDT和XGBoost怎么调优

03 什么建模场景下常用这两个明星算法?...贷 B卡(行为评分卡):S级出场率。 交易反欺诈:A级出场率,主要是支付,防止客户进行薅羊毛、套现等行为。 客户流失:A级出场率。 贷后 催收告警:A级出场率。 迁徙率预测:B级出场率。...在模型我们经常也是用来做分类(Classification),但我们知道GBDT的基分类器是CART,即Classification And Regression Tree,所以也可以支持回归建模...而关于模型怎么调优,我会在下一节一起讲。...模型怎么调优 关于模型的调优,先前有篇文章讲得比较细致《ML[7] | 模型调优的思路有哪些》,大家可以移步去回顾一下。

1.3K30

的大数据

的意义 何为?字面含义就是对于风险的控制从而使财务不受到损失。对于任何一家金融机构(包括银行,小贷,P2P等)来说,的重要性超过流量、体验、品牌这些人们熟悉的指标。...这其中除了一部分明显的自融欺诈外,大多数平台垮掉的原因还是不过关。 ◆◆◆ 2. 的核心 风险控制需要做什么?与逾期率的绝对数值相比,对风险的控制能力要重要得多。...国际上传统的方法 的核心是要准确预测每一笔借款违约概率。显而易见,这需要量化的工具,也就是模型。...x ,y:在美国,人们一般在上大学的时候就会拥有人生第一张信用卡。这样等到后续买房(房贷)买车(车贷)的时候,就已有了不短的信用历史了。...大数据的挑战 伴随着机遇同样也有挑战。就像要有美味的菜肴,我们既需要好的材料,也需要好的厨师,当前大数据在运用的挑战主要还是在数据和人才这两方面。

1.5K120

建模的IV和WOE

建模IV(信息价值)和WOE(证据权重)分别是变量筛选和变量转换不可缺少的部分。 很多文章已经讨论过这两个变量,本文在吸收前人优秀成果的基础上,希望用通俗易懂的语言让大家快速理解这两个变量。...并用简单的例子让大家明白在实际如何运用这两个变量,最后给出建模过程实际需要用到的Python代码。 1....表 1 - 极端例子1(用第一种方法算WOE) 从表1可知,如果该分箱坏人在总坏人中的占比和的该分箱的好人在总好人中占比相同,WOEi为0。...表 3 - 极端例子2(算IV) 从表3知,该组别坏样本占比和好样本占比的差异性越大,该组WOEi的绝对值越大。...,针对不在组别1的数据另外进行分析。

2K30

的大数据和机器学习

本篇文章只关注个人信用借款的。抵押贷,企业贷不在讨论范围。 ◆ ◆ ◆ 1. 的意义 何为?字面含义就是对于风险的控制从而使财务不受到损失。...做得好与坏直接决定了一家公司的生与死,而且其试错成本是无穷大的,往往一旦发现出了问题的时候就已经无法挽回了。截止到2015年底,全国总共3000多家P2P平台里超过三分之一已经倒闭。...这其中除了一部分明显的自融欺诈外,大多数平台垮掉的原因还是不过关。 ◆ ◆ ◆ 2. 的核心 风险控制需要做什么?与逾期率的绝对数值相比,对风险的控制能力要重要得多。...国际上传统的方法 的核心是要准确预测每一笔借款违约概率。显而易见,这需要量化的工具,也就是模型。...大数据的挑战 伴随着机遇同样也有挑战。就像要有美味的菜肴,我们既需要好的材料,也需要好的厨师,当前大数据在运用的挑战主要还是在数据和人才这两方面。

88930

必做的数据分析

大数据领域就没有不做数据分析的,大数据也不例外。 我的观点是和其他互联网业务都是互通的,本文介绍下风必做的数据分析,用以说明数据分析是一通百通的。 工欲善其事,必先利其器。...01 业务理解 如果一家金融机构聘请你给他们的业务做咨询,你知道怎么办吗? 别告诉我,你想硬搬建模比赛的那套东西。不要掉价。 解决方案一定是针对当前业务和用户客群独家定制的。...通过KYC,你可以大致知道发力的方向在哪里,是拓展新户还是挖掘存户,是提升能力还是优化产品设计,等等。 02 漏斗分析 进件漏斗分析可以帮助我们定位到产品设计的薄弱位置,从而针对优化。...vintage分析把不同期的样本放在了一起,可以用来观察不同期客群风险的变化,然后确定是流量本身的变化,还是宏观形形势的变化,还是策略的变化等等。...如大家所见,在领域所在的数据分析,应该和其他互联网领域的数分并无本质区别。 因为和其他业务一样,本质都是用户生命周期管理。基于相同的底层逻辑,数据分析必然也并无二致。

1.1K30

vivo 悟空活动 - H5 活动加载优化

本文首发于 vivo互联网技术 微信公众号 链接: https://mp.weixin.qq.com/s/6gtVR0nVNcZvREjwftZgzA 作者:悟空中研发团队 【悟空活动】系列往期精彩文章...: 《揭秘 vivo 如何打造千万级 DAU 活动 - 启航篇》 主要为大家讲述 vivo 活动的能力与创新。...《悟空活动 - 微组件状态管理(上)》介绍了活动页内 RSC 组件之间的状态管理和背后的设计思路。 《悟空活动 - 微组件状态管理(下)》探索平台和跨沙箱环境下的微组件状态管理。...《vivo悟空活动 - 微组件多端探索》是基于自助多端扩展,也就意味着多端 微 组件选择越丰富,内容越通用,玩法越多样,产品价值也会越高。...部分图片压缩后资源变大 后续文章《悟空活动 - 基于Webp的图片高效加载方案》会详细叙述悟空如何从平台角度提供 Webp压缩方案。

1.4K20

互联网金融的数据科学

宜人贷数据部数据科学家王婷根据自己在行业的实践经验和专业知识,从三方面来分享互联网金融的数据科学。 ? 背景 有了互联网之后,大家可以在线上进行理财借款。...传统都是使用一些基于规则的手段。线上随着用户量和数据量越来越大,我们会使用一些数据科学技术进行线上反欺诈规则的提取或智能欺诈风险发现。...知识图谱在金融的应用场景 互联网金融是一种机器学习的过程 互联网金融中风和机器学习一样要定义Y目标和X变量。 Y目标和普通机器学习Y目标的区别就在于正负比例非常悬殊。...建模的数据科学 ? 在整个,它是一个标准的机器学习流程。除了样本和数据与普通互联网机器学习不一样之外,其它基本都是一致的。...FinGraph是线上风险关键的一环 ? 总结:数据科学在互联网金融中发扬 图挖掘技术可以把风工作,从局部考量提升到全局考量。

2.6K50

建模SHAP值原理与Python实现

它基于博弈论的沙普利(Shapley)值,用于衡量每个特征对预测结果的影响。 在建模,SHAP库可以帮助理解哪些特征对贷款违约等风险预测的影响最大。...一、SHAP库的使用步骤 SHAP库在建模的使用步骤如下: 数据准备:首先,需要准备用于建模的数据集。这可能包括各种特征,如借款人的收入、信用评分、负债比率等。...三、SHAP值可视化、和模型特征重要性比较 1 导入数据 首先读取Python自带的鸢尾花数据,具体代码如下: # 导入并处理鸢尾花数据集 import pandas as pd from...iris.feature_names]) # 特征转DataFrame df['target'] = iris.target # 添加目标值 df = df[df.target.isin([0, 1 ])] # 取目标值的...至此,建模的shap值可视化已讲解完毕,如想了解更多建模内容,可以翻看公众号建模”模块相关文章。

74820

vivo 悟空活动 - 栅格布局方案

悟空活动】系列往期精彩文章: 《揭秘 vivo 如何打造千万级 DAU 活动 - 启航篇》 主要为大家讲述 vivo 活动的能力与创新。...《悟空活动 - 微组件状态管理(上)》介绍了活动页内 RSC 组件之间的状态管理和背后的设计思路。 《悟空活动 - 微组件状态管理(下)》探索平台和跨沙箱环境下的微组件状态管理。...《vivo悟空活动 - 微组件多端探索》是基于自助多端扩展,也就意味着多端 微 组件选择越丰富,内容越通用,玩法越多样,产品价值也会越高。...《vivo 悟空活动 - H5 活动加载优化》从提高资源请求速度,资源压缩、缓存、渲染等多种角度出发,寻找悟空活动专题加载优化方案。...《vivo悟空活动 - 基于 WebP 的图片高性能加载方案》 从技术选型、架构设计到方案落地,全方位的呈现悟空活动台基于 WebP 的图片高性能加载方案。

1.4K40

广告流量反作弊的模型应用

商业化广告流量变现,媒体侧和广告主侧的作弊现象严重,损害各方的利益,基于策略和算法模型的业务,有效保证各方的利益;算法模型可有效识别策略无法实现的复杂作弊模型,本文首先对广告反作弊进行简介,其次介绍系统中常用算法模型...,以及实战过程具体算法模型的应用案例。...作弊流量主要来自于: 模拟器或者被篡改了设备的广告流量; 真设备,但通过群控制的流量; 真人真机,但诱导产生无效流量等。...二、广告流量反作弊算法体系 2.1 算法模型在业务应用背景 智能,运用大量行为数据构建模型,对风险进行识别和感知监控,相比规则策略,显著提升识别的准确性和覆盖率以及稳定性。...random forest) 2.2 广告流量模型算法体系 体系分四层: 平台层:主要是依托spark-ml/tensorflow/torch算法框架基础上,引用开源以及自定义开发的算法应用于业务建模

51120

广告流量反作弊的模型应用

商业化广告流量变现,媒体侧和广告主侧的作弊现象严重,损害各方的利益,基于策略和算法模型的业务,有效保证各方的利益;算法模型可有效识别策略无法实现的复杂作弊模型,本文首先对广告反作弊进行简介,其次介绍系统中常用算法模型...,以及实战过程具体算法模型的应用案例。...作弊流量主要来自于: 模拟器或者被篡改了设备的广告流量; 真设备,但通过群控制的流量; 真人真机,但诱导产生无效流量等。...二、广告流量反作弊算法体系 2.1 算法模型在业务应用背景 智能,运用大量行为数据构建模型,对风险进行识别和感知监控,相比规则策略,显著提升识别的准确性和覆盖率以及稳定性。...random forest) 2.2 广告流量模型算法体系 体系分四层: 平台层:主要是依托spark-ml/tensorflow/torch算法框架基础上,引用开源以及自定义开发的算法应用于业务建模

1.7K30

【干货】建模把原始变量转成WOE实现

对于WOE原理不清楚的小伙伴,可以先看下本公众号之前的文章:建模的IV和WOE。 本文重点讲解用Python的toad库实现变量的WOE转换。...第一种: WOEi = ln(第i个分箱的坏样本数/总坏样本数)-ln(第i个分箱的好样本数/总好样本数) 此时可以理解为:对于第i个分箱,该箱坏样本在总坏样本的占比和该箱好样本在总好样本占比的差异性...表 1 - 极端例子1(用第一种方法算WOE) 从表1知,如果该箱坏样本在总坏样本的占比和该箱好样本在总好样本占比相同,WOEi为0。...至此,建模把原始变量转成WOE实现已讲解完毕 往期回顾: 一文囊括Python的函数,持续更新。。。 一文囊括Python的有趣案例,持续更新。。。...一文囊括Python的数据分析与绘图,持续更新。。。 一文囊括模型搭建(原理+Python实现),持续更新。。。

65530

建模的自动分箱的方法有哪些

03 如何评估分箱效果的好坏 04 设计一个基于建模的自动分箱轮子 01 分箱是什么意思,为什么要分箱,什么时候分箱? 分箱的意思就是将连续性变量通过几个划分点,分割成几段的过程。...Actually,对于评分卡的大多数模型,是可以的,只不过有些模型,如果直接把连续变量进入模型的话,带来的模型效果会不太理想。...那么,下面我将从两类我们常用的模型来说下: 1)LR:本身属于线性模型,表达能力有限,将变量分箱后意味着引入了更多的非线性特征,有助于提升模型拟合能力,一般情况下都进行WOE分箱之后再进入模型; 2...(一般是卡方值都高于设定的阈值,或者达到最大分组数等等) 基于最优KS的连续变量最优分箱 KS相信大家也都不陌生,可以稍微回顾下《建模的KS》 ,不过这里的KS值不是基于模型计算的,而是基于变量计算的...《建模的WOE与IV》 04 设计一个基于建模的自动分箱轮子 一般来说,如果要造一个基于建模的连续变量分箱框架,需要考虑什么内容呢?

2.5K31

悟空活动-打造 Nodejs 版本的MyBatis

一、背景 悟空活动技术文章系列又和大家见面了,天气渐冷,注意保暖。 在往期的系列技术文章我们主要集中分享了前端技术的方方面面,如微组件的状态管理,微组件的跨平台探索,以及有损布局,性能优化等等。...今天的技术主题要有点不一样,让我们一起来聊聊悟空活动在应用服务层的一些技术建设。...在悟空活动的技术架构设计,我们充分拥抱 JavaScript 生态,希望推进 JavaScript 的全栈开发流程,所以在应用层的服务端,我们选择了 Node 作为 BFF(Backend For...悟空活动选择成熟又可靠的 MySQL 来作为我们的数据存储数据库。那我们就需要思考 Node 和 MySQL 如何搭配才能更好的释放彼此的能力,接下来让我们一起走上探索之路。...三、悟空活动在数据持久层的探索 通过思考,我们回归原点重新审视这个问题,我们认为 SQL 是程序和数据库交互最好的领域语言,简单易学通用性强且无需回避 SQL 本身。

5.4K20

vivo悟空活动 - 微组件多端探索

本文首发于 vivo互联网技术 微信公众号 链接: https://mp.weixin.qq.com/s/oGX4XSm8F4fa1ocLdpyqlA 作者:悟空中研发团队 【悟空活动】系列往期精彩文章...: 《揭秘 vivo 如何打造千万级 DAU 活动 - 启航篇》 主要为大家讲述 vivo 活动的能力与创新。...《悟空活动 - 微组件状态管理(上)》介绍了活动页内 RSC 组件之间的状态管理和背后的设计思路。 《悟空活动 - 微组件状态管理(下)》探索平台和跨沙箱环境下的微组件状态管理。...基于上述痛点,我们想借助悟空中的能力打通技术壁垒,实现小程序插拔式、可视化 、自适配各小程序平台和快应用。带着这个初心,开启对悟空活动多端改造之旅。...复用悟空活动最大的挑战是遵循workless工作流的微前端架构方案,基于该方案的特点去扩展(组件热插拔,子系统独立部署)。

1.4K31

策略如何制定差异化利率定价方案

策略如何制定差异化利率定价方案 前言 一、框架设计 二、流程设计 三、方案测算 四、策略上线 总结 ---- 前言 一个产品上线后,随着规模的扩大,基于风险收益的匹配原则,以及差异化营销的管理要求...二、流程设计 根据(一)的框架设计,先对客户进行特征分群,在每一个客户群体上跑我们常用的风险分层模型,这里的模型分布需符合以下规律:随着模型组数的增大,客户质量下降,其授信通过率降低,平均授信额度降低...策略上线 各公司用的策略部署平台都不同,这里不对策略的部署的操作过程进行赘述,在这个环节我们需要注意几个问题: 先开发变量,再进行流程部署; 注意变量的局部性和全局性,特别针对同一个变量需要在一个策略多次调用

1.2K20

vivo 悟空活动 - 微组件状态管理(上)

如何打造千万级 DAU 活动 - 启航篇》的技术揭秘,相信我们对于 RSC 有了更多的了解。...在这个活动页场景涉及大量的组件之间的协作和数据共享。所以如果把活动看成一个小型的前端系统,RSC 只是构成系统的一个基本要素,还有一个非常重要的要素不能忽略,那就是 RSC 组件之间的连接。...所以在对 RSC 组件进行治理的过程,首先需要解决的就是活动页内组件之间的数据状态的管理。...因为在一个活动 RSC 组件会被重复加载多次,所有也会导致相同 namespace 的 store 模块重复加载导致模块覆盖。怎么保证 namespace 的唯一性呢?...我们一起回顾了RSC组件化方案,在解决悟空活动实际业务场景上走过的路,团队在技术上为努力解决 RSC 组件与组件之间状态管理上的思考。

2.7K10
领券