首页
学习
活动
专区
工具
TVP
发布

SAMshare

专栏作者
271
文章
286362
阅读量
38
订阅数
风控ML[18] | 风控建模中GBDT和XGBoost怎么调优
01 GBDT和XGBoost的原理介绍 02 GBDT和XGBoost的异同点分析 03 什么风控建模场景下常用这两个明星算法? 04 GBDT的评估与调参思路 05 XGBoost的评估与调参思路 06 总结一下
Sam Gor
2022-11-14
1.2K0
风控ML[16] | 风控建模中怎么做拒绝推断
01 什么是拒绝推断? 02 为什么要做拒绝推断? 03 什么时候做拒绝推断? 04 做拒绝推断都有哪些方法? 05 验证拒绝推断效果的方式 06 总结一下
Sam Gor
2022-11-14
1.4K0
风控ML[15] | 风控模型报告以及上线后需要监控的内容
一个优秀的模型上线报告以及一个优秀的上线后模型监控报表,在我们日常风控建模中是非常的常用并且有用的,今天这个话题就来和大家聊聊怎么去制作优秀的模型上线报告以及上线后的模型监控报表,主要聊聊思路,先要有一个全局的感受,具体实现放在下一期吧。以下内容均基于自己浅薄的经历提炼的,如有纰漏,欢迎指正或补充哦,欢迎交流~
Sam Gor
2022-04-12
2.6K0
风控ML[14] | 风控中的异常检测原理与应用
今天来介绍一下风控中的异常检测,从最基础的概念开始讲起,因为本人对这块的内容平时工作也做得不多,更多滴偏向于“纸上谈兵”,有什么说得不对的地方,也欢迎各位朋友指正~谢谢。
Sam Gor
2022-04-12
2.1K0
关于机器学习模型可解释性算法的汇总
目前很多机器学习模型可以做出非常好的预测,但是它们并不能很好地解释他们是如何进行预测的,很多数据科学家都很难知晓为什么该算法会得到这样的预测结果。这是非常致命的,因为如果我们无法知道某个算法是如何进行预测,那么我们将很难将其前一道其它的问题中,很难进行算法的debug。
Sam Gor
2022-04-12
9690
时间序列建模的时间戳与时序特征衍生思路
时间序列模型在我们日常工作中应用的场景还是会很多的,比如我们去预测未来的销售单量、预测股票价格、预测期货走势、预测酒店入住等等,这也是我们必须要掌握时序建模的原因。而关于时间戳以及时序值的特征衍生,在建模过程中起到的作用是十分巨大的!之前写过一篇关于日期特征操作的文章——《关于日期特征,你想知道操作都在这儿~》,可以先回顾下,里面有关于日期特征的基础操作手法。
Sam Gor
2022-02-25
1.3K0
特征稳定性指标PSI的原理与代码分享
PSI这个指标我们在风控建模前后都是需要密切关注的,这个指标直接反映了模型的稳定性,对于我们评估模型是否需要迭代有着直接的参考意义。今天我将从下面几方面来介绍一下这个指标。
Sam Gor
2022-02-25
3K0
不平衡数据的处理方法与代码分享
印象中很久之前有位朋友说要我写一篇如何处理不平衡数据的文章,整理相关的理论与实践知识,于是乎有了今天的文章。失衡样本在我们真实世界中是十分常见的,那么我们在机器学习(ML)中使用这些失衡样本数据会出现什么问题呢?如何处理这些失衡样本呢?以下的内容希望对你有所帮助!
Sam Gor
2022-02-25
1.4K0
3种连续变量分箱方法的代码分享
大家好呀!在上一篇我们介绍了3种业界常用的自动最优分箱方法。 1)基于CART算法的连续变量最优分箱 2)基于卡方检验的连续变量最优分箱 3)基于最优KS的连续变量最优分箱 今天这篇文章就来分享一下这3种方法的Python实现。
Sam Gor
2022-02-25
1.3K0
风控建模中的自动分箱的方法有哪些
之前有位读者朋友说有空介绍一下自动分箱的方法,这个确实在我们实际建模过程前是需要解决的一个问题,简单来说就是把连续变量通过分箱的方式转换为类别变量。关于这个话题,我也借着这个主题来系统的梳理总结一下几点:为什么要分箱?不分箱可以入模型吗?自动分箱的常用方法有哪些?评估分箱效果好坏的方法有哪些? 如果篇幅允许,就顺便把实现的Python代码也分享下,如果太长了就另外起一篇文章来讲。因此,本篇文章主要从下面几个模块来展开说说。
Sam Gor
2022-02-25
2.3K0
风控ML[5] | WOE前的分箱一定要单调吗
今天分享的WOE单调性讨论,也是我们在建模过程中选择特征进行模型前需要考虑的一个细节问题。关于WOE,可以参考一下前面的文章回顾一下哈,《风控ML[3] | 风控建模的WOE与IV》。今天的分享主要从下面的顺序来展开。
Sam Gor
2022-02-25
1.6K0
风控ML[4] | 风控建模的KS
我们这做风控模型的时候,经常是会用KS值来衡量模型的效果,这个指标也是很多领导会直接关注的指标。今天写一篇文章来全面地剖析一下这个指标,了解当中的原理以及实现,因为这些知识是必备的基本功。我将会从下面几个方面来展开讲解一下KS:
Sam Gor
2022-02-25
4.2K0
风控ML[3] | 风控建模的WOE与IV
「风控ML」系列文章,主要是分享一下自己多年以来做金融风控的一些事一些情,当然也包括风控建模、机器学习、大数据风控等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步!
Sam Gor
2021-11-30
3.3K0
风控ML[2] | 机器学习模型如何做业务解释?
「风控ML」系列文章,主要是分享一下自己多年以来做金融风控的一些事一些情,当然也包括风控建模、机器学习、大数据风控等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步!
Sam Gor
2021-11-30
7220
风控ML[1] | 风控建模老司机的几点思考与总结
「风控ML」系列文章,主要是分享一下自己多年以来做金融风控的一些事一些情,当然也包括风控建模、机器学习、大数据风控等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步!
Sam Gor
2021-11-30
1.3K0
一起揭开 YARN 的神秘面纱
我们知道MapReduce1.0,是把计算框架和资源调度框架都弄在一起了,所以Master端的JobTracker会大包大揽去执行任务,存在很多问题,比如资源分配不均、单点故障会导致整个集群不可用、没办法集成多个不同的计算框架(比如Spark、Storm)。因此,YARN的设计思路就是把原先JobTracker的资源管理调度和监控的功能剥离出来,在YARN中实现,而MapReduce2.0仅仅就是做计算框架的事情。同时,YARN还可以兼容搭建多个不同的计算框架,实现同一个集群内资源和数据的共享。
Sam Gor
2021-10-19
4450
一起揭开 Kafka 的神秘面纱
Kafka是由Servers(服务器)和Clients(客户端)组成的高吞吐量分布式发布订阅消息系统,可以部署在裸机、虚拟机以及云环境上。在我们接触的很多业务场景中都会看到很多Kafka的身影,今日来给大家分享一下Kafka的基本概念以及整体框架情况,首先先来了解一下几个专业名词。
Sam Gor
2021-10-19
3300
用随机梯度下降来优化人生!
1.要有目标。你需要有目标。短的也好,长的也好。认真定下的也好,别人那里捡的也好。就跟随机梯度下降需要有个目标函数一样。
Sam Gor
2021-09-29
4750
一起揭开 PySpark 编程的神秘面纱
Spark 是 UC Berkeley AMP lab 开发的一个集群计算的框架,类似于 Hadoop,但有很多的区别。最大的优化是让计算任务的中间结果可以存储在内存中,不需要每次都写入 HDFS,更适用于需要迭代的 MapReduce 算法场景中,可以获得更好的性能提升。例如一次排序测试中,对 100TB 数据进行排序,Spark 比 Hadoop 快三倍,并且只需要十分之一的机器。Spark 集群目前最大的可以达到 8000 节点,处理的数据达到 PB 级别,在互联网企业中应用非常广泛。
Sam Gor
2021-09-29
1.9K0
一起揭开 Hive 编程的神秘面纱
Hadoop实现了一个特别的计算模型,就是MapReduce,可以将我们的计算任务分拆成多个小的计算单元,然后分配到家用或者服务器级别的硬件机器上,从而达到降低成本以及可扩展的问题,在这个MapReduce计算模型底下,有一个分布式文件系统(HDFS),在支持分布式计算上极其重要。
Sam Gor
2021-09-29
4660
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档