首页
学习
活动
专区
工具
TVP
发布

Data Analyst

专栏作者
37
文章
41496
阅读量
14
订阅数
工作中我常用的分析算法
统计性描述更为侧重单变量的描述,即描述X、X与X之间的关系,在通过X去描述Y的时候,我更关心X与Y间存在何种关系,此时便需要借助散点图去印证X与Y相关的内在一致性,并通过方差、协方差过渡到统计相关的本质。
许卉
2019-09-24
5700
如何借助模型衡量营销效果?
生活中经常会遇到各种形态的营销活动,例如小米的饥饿营销、海底捞式的口碑营销、PaPi酱式的内容营销、杜蕾斯的借势营销、京东的造势营销、百雀羚的病毒式营销、RIO与六神合作的跨界营销、成龙代言霸王洗发水的名人营销、各种综艺冠名的植入营销 等等。
许卉
2019-08-09
1.2K0
决策树告诉你出门带不带伞
你可以这样回答,“带不带伞需要看具体的情况,如果今天烈日高照而且大妈儿子今天计划走路去上班恰好这个人非常抠门,那么他需要带上雨伞;否则,不需要带雨伞”。
许卉
2019-07-15
5730
天造地设的主成分与神经网络
分析架构中常常会涉及到主成分分析的环节,我常常会想,这部分主成分分析能不能用聚类分析去替代呢?结论是不能~
许卉
2019-07-15
4480
神经网络如同青蛙的智力
我理解的神经网络模型类似人的记忆,即人从出生到长大,接触、吸收外部信息并且将外部事物量化、统一化、概念化的过程,以此去指导一生的行为。
许卉
2019-07-15
3790
数据挖掘中模型填补的方法
通常,数据挖掘领域 建模时 数据样本的填补方法与样本量的大小息息相关,一般,如果变量间取值关联程度较强,则模型填补的方式似乎更为常见:
许卉
2019-07-15
9530
数据挖掘不可小觑测量级别
为保证模型精准度,通常,构建模型前需要对样本进行缺失值、异常值、数据合并、数据离散化以及变量转换等多方面的处理,处理过程中,变量测量级别的确定贯穿其中。
许卉
2019-07-15
5730
RFM模型中的优惠券发放、捆绑销售以及短信营销
客户价值模型包含RFM模型,RFM模型仅仅是电商领域的客户价值模型,构建RFM模型的基本流程为:
许卉
2019-07-15
2K0
数据挖掘更在乎成本与收益
数据分析中,不管是数据挖掘领域还是统计分析领域,都较为侧重验证性,验证性分析占据非常重要的主导地位。不同的是,99%的统计分析都是验证性分析,而数据挖掘领域中验证性分析的比例略低,能达到80%-90%左右。
许卉
2019-07-15
4640
人生就是一个随机过程
一般统计的理论基础是概率论,而时间序列比较特殊,它的理论基础是随机过程。想透彻的理解时间序列,应该从根本、从随机过程的角度去理解时间序列。
许卉
2019-07-15
7010
聚类分析并不靠谱
相同的聚类分析中,距离的定义方式不同,得到的聚类结果也会不同,实际的数据分析工作中,为了便于解释结果,我更喜欢使用相似程度去定义聚类分析中的距离。
许卉
2019-07-15
1.2K0
客户画像中的聚类分析
实际工作中,最常使用的当属回归类模型,其次便是客户画像。即便是评分模型也会涉及到客户画像,由于首富客户的违约特征与普通百姓不同,故需进行区分,信用分池即为客户画像。
许卉
2019-07-15
1.6K0
我眼中的模型评估
逻辑回归模型的几个衡量指标如洛伦兹曲线、ROC曲线、lift曲线等皆来源于混淆矩阵,如果针对同一个问题构建不同的模型,当进行模型间效果比较时,经常会用到这三个曲线。
许卉
2019-07-15
7280
我眼中的变量聚类
‍‍‍‍‍ 连续变量压缩的基本思路为:建模之前使用主成分、因子分析或变量聚类的方法进行变量压缩,后续建模时使用向前法、向后法、逐步法或全子集法进一步进行变量细筛。虽然方法的名称叫做变量聚类,但却并不是聚类分析,而是一种主成分分析的方法。
许卉
2019-07-15
1.4K0
我眼中的变量水平压缩(二)
WOE是一种证据权重,全称为weight of evidence,是变量压缩时我会采用的第二种方法。目前WOE变换也是信用评分模型中标准的处理流程、必不可少的步骤之一。
许卉
2019-07-15
4910
我眼中的分类变量水平压缩(一)
如果变量水平本身较多,那么哑变量的水平个数也会相应变多,这种情况下去构建模型肯定不行,需要将分类变量的水平进行压缩处理。
许卉
2019-07-15
9170
盖帽处理异常值
如下图所示,某市场产品客群的样本分布中,年龄为0-5岁与150-200岁即可判定为异常,一般单值异常需结合实际的业务进行判断。
许卉
2019-07-15
1.5K0
评分模型的缺失值
构建评分模型过程中,建模属于流程性的过程,耗时不多,耗费大量精力的点在于缺失值的填充。缺失值填充的合理性直接决定了评分模型的成败。模型按照形式可划分为公式模型与算法模型,不同形式的模型对缺失值的宽容程度不同。
许卉
2019-07-15
1.7K0
信用评分建模时的坑
实际工作中,清晰的数据分析流程是保证模型质量的重要手段,属于工艺的范畴。数据分析流程没有统一固定的标准答案,只有业界领先的经验,需要结合实际业务的特点进行不断调整与优化。
许卉
2019-07-15
8710
信用卡违约预测模型的开发思路
目前以金融业为代表的各行各业使用的评分模型的原型都是基于美国FICO公司开发的评分模型,每个企业会将FICO的模型做些变形,从而形成自己需要的模型。
许卉
2019-07-15
1.2K0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档