首页
学习
活动
专区
工具
TVP
发布

SAMshare

专栏作者
271
文章
292382
阅读量
38
订阅数
风控ML[18] | 风控建模中GBDT和XGBoost怎么调优
01 GBDT和XGBoost的原理介绍 02 GBDT和XGBoost的异同点分析 03 什么风控建模场景下常用这两个明星算法? 04 GBDT的评估与调参思路 05 XGBoost的评估与调参思路 06 总结一下
Sam Gor
2022-11-14
1.2K0
风控ML[16] | 风控建模中怎么做拒绝推断
01 什么是拒绝推断? 02 为什么要做拒绝推断? 03 什么时候做拒绝推断? 04 做拒绝推断都有哪些方法? 05 验证拒绝推断效果的方式 06 总结一下
Sam Gor
2022-11-14
1.5K0
风控ML[14] | 风控中的异常检测原理与应用
今天来介绍一下风控中的异常检测,从最基础的概念开始讲起,因为本人对这块的内容平时工作也做得不多,更多滴偏向于“纸上谈兵”,有什么说得不对的地方,也欢迎各位朋友指正~谢谢。
Sam Gor
2022-04-12
2.3K0
特征稳定性指标PSI的原理与代码分享
PSI这个指标我们在风控建模前后都是需要密切关注的,这个指标直接反映了模型的稳定性,对于我们评估模型是否需要迭代有着直接的参考意义。今天我将从下面几方面来介绍一下这个指标。
Sam Gor
2022-02-25
3.2K0
不平衡数据的处理方法与代码分享
印象中很久之前有位朋友说要我写一篇如何处理不平衡数据的文章,整理相关的理论与实践知识,于是乎有了今天的文章。失衡样本在我们真实世界中是十分常见的,那么我们在机器学习(ML)中使用这些失衡样本数据会出现什么问题呢?如何处理这些失衡样本呢?以下的内容希望对你有所帮助!
Sam Gor
2022-02-25
1.4K0
3种连续变量分箱方法的代码分享
大家好呀!在上一篇我们介绍了3种业界常用的自动最优分箱方法。 1)基于CART算法的连续变量最优分箱 2)基于卡方检验的连续变量最优分箱 3)基于最优KS的连续变量最优分箱 今天这篇文章就来分享一下这3种方法的Python实现。
Sam Gor
2022-02-25
1.3K0
风控ML[5] | WOE前的分箱一定要单调吗
今天分享的WOE单调性讨论,也是我们在建模过程中选择特征进行模型前需要考虑的一个细节问题。关于WOE,可以参考一下前面的文章回顾一下哈,《风控ML[3] | 风控建模的WOE与IV》。今天的分享主要从下面的顺序来展开。
Sam Gor
2022-02-25
1.7K0
风控ML[3] | 风控建模的WOE与IV
「风控ML」系列文章,主要是分享一下自己多年以来做金融风控的一些事一些情,当然也包括风控建模、机器学习、大数据风控等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步!
Sam Gor
2021-11-30
3.4K0
风控ML[1] | 风控建模老司机的几点思考与总结
「风控ML」系列文章,主要是分享一下自己多年以来做金融风控的一些事一些情,当然也包括风控建模、机器学习、大数据风控等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步!
Sam Gor
2021-11-30
1.3K0
如何量化样本偏差对信贷风控模型的影响?
风控是信贷业务的核心,业务实践中经常会出现样本选择性偏差(sample bias),从而影响模型效果,影响信贷业务。而很多风控模型也都只能基于有偏样本建立。对于样本偏差对风控模型的影响,很多模型同学一般只是定性分析,为此,本文将尝试从量化的角度探讨这一点,希望能给大家一些方法论上的启发。
Sam Gor
2021-03-22
1.4K0
[013] 7种常见数据结构的图画解读
Data structures are fundamental constructs that are used to build programs. Each data structure has its own way of organizing data, which may work efficiently in particular use cases. With their own particular structures, data structures offer alternative solutions to data organization, management, storage, access, and modification tasks.
Sam Gor
2021-02-03
3640
我用特征工程+LR超过了xDeepFM!
之前对于特征工程的了解知之甚少,后来和杰少,峰少等朋友聊完之后,也自己跑了一些竞赛,深受启发,之前一直认为特征工程是艺术,但现在我个人更倾向于认为它是一门技术,它与模型相辅相成,特征工程要做的事情就是帮助模型,模型预测不好的地方,那么我们人为的用经验或者构建的特征来帮助它,使得模型能把自己做不好的地方能做好。所以特征工程师95%的技术+5%的艺术(很多真的太难想到了)。
Sam Gor
2021-01-05
1.4K0
[009] DS的Code Review该怎么做?这15条建议可以了解一下
When reviewing code or working through problems, sometimes more than one person looking at the code can be a huge benefit; hence, why I love code reviews! Code reviews are beneficial regardless of the type of code you are writing. A code review is when at least one developer or data scientist looks over your code and review the work. Common topics discussed are logic errors, review of code requirements, testing, and conformity to a coding style guide. As Dan Radigan puts it in his article on Why code reviews matter (and actually save time!):
Sam Gor
2020-12-02
3820
[008] 数据清洗不知如何着手?强力推荐这份清单
It was before the Stack Overflow era, so not much help was available online. Some people would print out cheatsheets of different kinds and hang on the walls around their workstations. Having a couple of pages of frequently used codes in front of the desk was an efficient way of correcting syntax errors.
Sam Gor
2020-12-02
4060
[007] 这份关于Python可视化的秘笈请收好!
“作者总结了用Python进行EDA可视化的常用demo,同时也有一个案例带着我们走了一遍,代码可以复用,涉及了常见的图表,包括折线图、条形图、柱状图、堆积图、饼图等,可以简单阅读,然后收藏起来备用哦!
Sam Gor
2020-11-23
3020
[005] Python异常处理三板斧——Try, Except, and Assert!
The dream of every software programmer is to write a program that runs smoothly. However, this is not usually the case at first. The execution of a code stops in case of an error.
Sam Gor
2020-11-19
7910
特征锦囊:如何在Python中处理不平衡数据
印象中很久之前有位朋友说要我写一篇如何处理不平衡数据的文章,整理相关的理论与实践知识(可惜本人太懒了,现在才开始写),于是乎有了今天的文章。失衡样本在我们真实世界中是十分常见的,那么我们在机器学习(ML)中使用这些失衡样本数据会出现什么问题呢?如何处理这些失衡样本呢?以下的内容希望对你有所帮助!
Sam Gor
2020-11-19
2.3K0
[002] 一文了解Python中的常用字符串操作
Asthe co-founder of Microsoft says, I invite you to continue stretching your mind in an effort to broaden your programming skills with potential applications in many domains. The purpose of the article is to serve as a cheat-sheet for built-in methods of one of the basic Python data types: strings. A string is a data type in Python programming language that's used to represent a piece of text. They are super flexible and necessary to appropriately represent text inputs in code. As a result, learning how to make the most out of them is a must.
Sam Gor
2020-11-19
3610
特征锦囊:今天一起搞懂机器学习里的L1与L2正则化
特征锦囊:今天一起搞懂机器学习里的L1与L2正则化 今天我们来讲讲一个理论知识,也是老生常谈的内容,在模型开发相关岗位中出场率较高的,那就是L1与L2正则化了,这个看似简单却十分重要的概念,还是需要深
Sam Gor
2020-09-30
1.3K0
Python手写了 35 种可解释的特征工程方法
特征的挖掘,是一个 算法工程师 or 数据挖掘工程师,最最最基本的能力。实际业务中,许多数时候数据源和建模目标都是确定的,这时候特征工程几乎就决定了最终模型的业务效果。即使是表示学习横行的当下,在风控和推荐系统中依然大量的使用着手工的特征进行建模。本文将介绍机器学习中的2大类特征深入挖掘方法(特征聚合&特征交叉),以及其中35种特征衍生方案。希望能为对此处经验较少的读者提供一些帮助。
Sam Gor
2020-09-14
1.3K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档