首页
学习
活动
专区
工具
TVP
发布

SAMshare

专栏作者
271
文章
286587
阅读量
38
订阅数
3种连续变量分箱方法的代码分享
大家好呀!在上一篇我们介绍了3种业界常用的自动最优分箱方法。 1)基于CART算法的连续变量最优分箱 2)基于卡方检验的连续变量最优分箱 3)基于最优KS的连续变量最优分箱 今天这篇文章就来分享一下这3种方法的Python实现。
Sam Gor
2022-02-25
1.3K0
[004] 使用SQL时,千万别犯这5种错误!
SQL and Machine Learning have a few things in common. It’s easy to start with one as it doesn’t require a lot of coding. Also, code rarely crashes.
Sam Gor
2020-11-19
5700
最近面了十多个数据分析师,聊一聊我发现的一些问题
这里的技能包括编程语言、应用软件、常用工具包的api。有朋友会问:我是搞数据分析的,思路最重要,什么工具其实不重要,为什么面试非要问我这些工具熟练度?
Sam Gor
2020-02-26
4020
特征锦囊:怎么简单使用LDA来划分数据且可视化呢?
从可视化可以看出做了LDA的数据类别区分度还是比较明显的,而且效果和PCA的差不多,相比原始的还是有很明显的效果。
Sam Gor
2020-02-17
7320
特征锦囊:怎么简单使用PCA来划分数据且可视化呢?
我们通过自定义的绘图函数plot,把不同类别的y值进行不同颜色的显示,从而看出在值域上分布的差异。从原始的特征来看,不同类别之间其实界限并不是十分明显,如上图所示。而进行PCA转换后,可以看出不同类别之间的界限有了比较明显的差异。
Sam Gor
2020-02-17
4890
特征锦囊:怎么把几个图表一起在同一张图上显示?
未来几个特征锦囊的内容会使用泰坦尼克号的数据集,大家可以在下面的链接去下载数据哈。
Sam Gor
2020-01-15
5300
推荐系统特征工程的万字理论
推荐系统是机器学习的一个子领域,并且是一个偏工程化、在工业界有极大商业价值的方向。大量应用于提供toC类产品的互联网企业服务中,通过推荐系统为用户提供精准的个性化服务。推荐系统通过推荐算法来为用户生成个性化推荐结果,而推荐算法依赖数据输入来构建算法模型。
Sam Gor
2020-01-15
2.8K0
BDK | 一起来修炼大数据/数据仓库的内功吧
先前有在公众号里说到了接下来自己的学习重点会放在数据仓库的设计与建设、ETL、大数据架构相关的内容了,所以今天就先开一个专栏来专门存放这类的知识,叫 BDK!聪明的你应该也猜到就是BigData Knowledge的简称了。虽然说数据仓库和大数据放在一起还是蛮牵强的,但是我个人觉得其实我们学习的数据仓库、数据湖、ETL、数据挖掘之类的知识,其实都是用来管理我们日益增多的大数据的,因此,从这个角度来看,取这个名字也是有点合理的(哈哈哈哈)。
Sam Gor
2019-12-19
8380
31个惊艳的数据可视化作品,让你感受“数据之美”!
在一个信息大爆炸的时代,每天都有很多的新消息、新发现、新趋势向我们狂轰乱炸而来。在这个过程中,我们既是数据的生产者,也是数据的使用者,然而初次获取和存储的原始数据总是杂乱无章的。
Sam Gor
2019-12-11
6800
从0到1,构建数据指标体系!
首先从构建数据指标体系说起,一个成熟项目的指标体系往往经过前人的构建和完善后,已经非常成熟,不必从0开始构建产品的数据指标体系。但产品经理必须具备从0开始构建数据体系的能力,因为在职业生涯中一定会有接触新产品的时候,即便是同一产品在不同的生命周期重点数据指标也可能不一样。
Sam Gor
2019-12-06
5240
终极PK:数据分析 VS 数据挖掘 VS 数据科学家
一直以来有人问:“ 数据分析 VS 数据挖掘 VS 数据科学家,它们到底有什么不同?入行大数据的话该怎么选?” 估计 90% 程序员,包括一些数据相关工作的⼩伙伴,都给不出准确回答。最近整理了这张对比长图,来回答这个问题!PS. 被问次数太多了,实属无奈
Sam Gor
2019-12-04
4710
easyeda,一个简单实用的探索性数据分析工具
在算法工程师的日常工作中,探索性数据分析(Exploratory Data Analysis)是一种常见的任务。通过分析数据的缺失情况,分布情况,以及和标签的相关性等,数据EDA可以帮助算法工程师评估数据的质量,了解数据的特点,为特征工程提供方向指引,并对后续建立的模型能够达到的效果上限形成初步预期。
Sam Gor
2019-11-19
6780
竞赛经验 | 一文梳理2019年腾讯广告算法大赛冠军方案
作为从本次比赛共157队伍中脱颖而出的冠军方案,评分达到87.9683,从数据清洗、模型构建、目标优化等有非常多值得学习的地方。比赛团队也挺有意思,分别来自哈工大、微软研究院和京东,算是学术界和工业界的强强联合,在多个数据竞赛中都有不错的名次。
Sam Gor
2019-10-08
5850
手把手教你入门和实践特征工程 的全方位万字笔记,附代码下载
(注:本节用到了两个数据集,分别是Salary_Ranges_by_Job_Classification 和 GlobalLandTemperaturesByCity)
Sam Gor
2019-09-17
1.5K0
MLK | 特征工程系统化干货笔记+代码了解一下(下)
经过了上面几个环节的“洗礼”,我们来到特征转换的环节,也就是使用源数据集的隐藏结构来创建新的列,常用的办法有2种:PCA和LDA。
Sam Gor
2019-09-17
3670
Machine Learning-特征工程
最近也是在做特征筛选,有些文章还是蛮有用的,这边整理一些有用的代码给大家参考参考,具体介绍可以看正文,代码的话我保存下来了,有需要的在后台回复“特征工程”即可获取。
Sam Gor
2019-08-22
5140
Machine Learning-模型评估与调参 ——管道工作流
“管道工作流”这个概念可能有点陌生,其实可以理解为一个容器,然后把我们需要进行的操作都封装在这个管道里面进行操作,比如数据标准化、特征降维、主成分分析、模型预测等等,下面还是以一个实例来讲解。
Sam Gor
2019-08-22
5930
【推荐收藏】GBDT详细讲解
gbdt全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。这三点实在是太吸引人了,导致在面试的时候大家也非常喜欢问这个算法。gbdt的面试考核点,大致有下面几个:
Sam Gor
2019-07-08
1K0
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档