首页
学习
活动
专区
工具
TVP
发布

SAMshare

专栏成员
272
文章
311346
阅读量
39
订阅数
风控ML[18] | 风控建模中GBDT和XGBoost怎么调优
01 GBDT和XGBoost的原理介绍 02 GBDT和XGBoost的异同点分析 03 什么风控建模场景下常用这两个明星算法? 04 GBDT的评估与调参思路 05 XGBoost的评估与调参思路 06 总结一下
Sam Gor
2022-11-14
1.4K0
风控ML[16] | 风控建模中怎么做拒绝推断
01 什么是拒绝推断? 02 为什么要做拒绝推断? 03 什么时候做拒绝推断? 04 做拒绝推断都有哪些方法? 05 验证拒绝推断效果的方式 06 总结一下
Sam Gor
2022-11-14
1.7K0
风控ML[14] | 风控中的异常检测原理与应用
今天来介绍一下风控中的异常检测,从最基础的概念开始讲起,因为本人对这块的内容平时工作也做得不多,更多滴偏向于“纸上谈兵”,有什么说得不对的地方,也欢迎各位朋友指正~谢谢。
Sam Gor
2022-04-12
2.7K0
时间序列建模的时间戳与时序特征衍生思路
时间序列模型在我们日常工作中应用的场景还是会很多的,比如我们去预测未来的销售单量、预测股票价格、预测期货走势、预测酒店入住等等,这也是我们必须要掌握时序建模的原因。而关于时间戳以及时序值的特征衍生,在建模过程中起到的作用是十分巨大的!之前写过一篇关于日期特征操作的文章——《关于日期特征,你想知道操作都在这儿~》,可以先回顾下,里面有关于日期特征的基础操作手法。
Sam Gor
2022-02-25
1.6K0
不平衡数据的处理方法与代码分享
印象中很久之前有位朋友说要我写一篇如何处理不平衡数据的文章,整理相关的理论与实践知识,于是乎有了今天的文章。失衡样本在我们真实世界中是十分常见的,那么我们在机器学习(ML)中使用这些失衡样本数据会出现什么问题呢?如何处理这些失衡样本呢?以下的内容希望对你有所帮助!
Sam Gor
2022-02-25
1.5K0
3种连续变量分箱方法的代码分享
大家好呀!在上一篇我们介绍了3种业界常用的自动最优分箱方法。 1)基于CART算法的连续变量最优分箱 2)基于卡方检验的连续变量最优分箱 3)基于最优KS的连续变量最优分箱 今天这篇文章就来分享一下这3种方法的Python实现。
Sam Gor
2022-02-25
1.4K0
风控建模中的自动分箱的方法有哪些
之前有位读者朋友说有空介绍一下自动分箱的方法,这个确实在我们实际建模过程前是需要解决的一个问题,简单来说就是把连续变量通过分箱的方式转换为类别变量。关于这个话题,我也借着这个主题来系统的梳理总结一下几点:为什么要分箱?不分箱可以入模型吗?自动分箱的常用方法有哪些?评估分箱效果好坏的方法有哪些? 如果篇幅允许,就顺便把实现的Python代码也分享下,如果太长了就另外起一篇文章来讲。因此,本篇文章主要从下面几个模块来展开说说。
Sam Gor
2022-02-25
2.7K0
PySpark入门级学习教程,框架思维(上)
为什么要学习Spark?作为数据从业者多年,个人觉得Spark已经越来越走进我们的日常工作了,无论是使用哪种编程语言,Python、Scala还是Java,都会或多或少接触到Spark,它可以让我们能够用到集群的力量,可以对BigData进行高效操作,实现很多之前由于计算资源而无法轻易实现的东西。网上有很多关于Spark的好处,这里就不做过多的赘述,我们直接进入这篇文章的正文!
Sam Gor
2021-04-26
1.6K0
[008] 数据清洗不知如何着手?强力推荐这份清单
It was before the Stack Overflow era, so not much help was available online. Some people would print out cheatsheets of different kinds and hang on the walls around their workstations. Having a couple of pages of frequently used codes in front of the desk was an efficient way of correcting syntax errors.
Sam Gor
2020-12-02
4200
特征锦囊:如何在Python中处理不平衡数据
印象中很久之前有位朋友说要我写一篇如何处理不平衡数据的文章,整理相关的理论与实践知识(可惜本人太懒了,现在才开始写),于是乎有了今天的文章。失衡样本在我们真实世界中是十分常见的,那么我们在机器学习(ML)中使用这些失衡样本数据会出现什么问题呢?如何处理这些失衡样本呢?以下的内容希望对你有所帮助!
Sam Gor
2020-11-19
2.4K0
推荐收藏!机器学习领域最全综述列表!
继续来给大家分享github上的干货,一个『机器学习领域综述大列表』,涵盖了自然语言处理、推荐系统、计算机视觉、深度学习、强化学习等主题。
Sam Gor
2020-10-23
3670
叮~AutoML自动化机器学习入门指南,来了
之前的工作中也有多少接触过这个AutoML(Automated Machine Learning)的概念,简单来说就是把模型开发的标准过程模块化,都交给一些自动化的组件来完成,比如数据集的划分、特征衍生、算法选择、模型训练、调优、部署以及后续的监控,都“一条龙”地在AutoML实现。
Sam Gor
2020-09-14
1.4K0
机器学习准备数据时如何避免数据泄漏
本篇文章主要介绍了几种常用的数据准备方法,以及在数据准备的过程中如何避免数据泄露。
Sam Gor
2020-09-04
1.5K0
学习周报20200621 | 风控、模型、回顾
这周因为一些原因需要整理一些风控建模的知识点,顺便在这里整理一下,一起来回顾回顾。
Sam Gor
2020-06-24
1.8K0
强烈推荐!分享一个持续连载的《特征工程小锦囊》项目,代码已开源!
随着我们在机器学习、数据建模、数据挖掘分析这条发展路上越走越远,其实越会感觉到特征工程的重要性,平时我们在很多地方都会看到一些很好的特征工程技巧,但是都会是一个完整项目去阅读,虽然说这样子也可以学习挖掘思路,但有的时候浓缩的技巧总结也是十分重要!
Sam Gor
2020-02-16
5260
吴恩达《Machine Learning》Jupyter Notebook 版笔记发布!图解、公式、习题都有了
这门课是发布在 Coursera 上的,很多读者容易把它与吴恩达的另一门课 CS229 混淆。其实,今天讲的 Coursera 上的《Machine Learning》更加简单。
Sam Gor
2020-02-16
9860
31个惊艳的数据可视化作品,让你感受“数据之美”!
在一个信息大爆炸的时代,每天都有很多的新消息、新发现、新趋势向我们狂轰乱炸而来。在这个过程中,我们既是数据的生产者,也是数据的使用者,然而初次获取和存储的原始数据总是杂乱无章的。
Sam Gor
2019-12-11
9100
特征工程系列:时间特征构造以及时间序列特征构造
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。
Sam Gor
2019-12-04
1.1K0
easyeda,一个简单实用的探索性数据分析工具
在算法工程师的日常工作中,探索性数据分析(Exploratory Data Analysis)是一种常见的任务。通过分析数据的缺失情况,分布情况,以及和标签的相关性等,数据EDA可以帮助算法工程师评估数据的质量,了解数据的特点,为特征工程提供方向指引,并对后续建立的模型能够达到的效果上限形成初步预期。
Sam Gor
2019-11-19
7060
模型堆叠(Stacking)和模型融合的原理与实现以及一个库heamy的介绍
英文版:https://mlwave.com/kaggle-ensembling-guide/
Sam Gor
2019-10-23
1.8K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档