首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据挖掘、大数据建模、Pathon的一点想法

细节君扯淡曰

让细节君陪伴你的进步

大家都是非常热议的智能分析以及AI技术,但是又有多少人知道这些技术背后的底层逻辑呢?

人的大脑就是一个完全智能的超级计算机,它能够智能处理各种信息,不管是语言、数字、文字、模糊信息等。未来的技术就是让我们的计算机拥有这样的技术。而这些技术最底层的就是我们数据挖掘技术。只要学习好了数据挖掘以及衍生学科技术,未来场景应用将不可限量。

下面介绍以下数据分析的各种层次:

1 常规分析

揭示数据间的静态关系,但是这种分析比较滞后,而且对数据要求非常高。一般性数据无法分析。

2 数据挖掘

统计学和计算机技术等科学结合起来,揭示数据之间的隐藏的的关系,将数据的分析范围从从已知扩展到未知,从过去扩展到未来。

3 商务智能

一些列事实作为支持,辅助商业决策的技术和方法,一般都有数据仓库、联机分析处理、数据挖掘、数据备份和恢复等板块,但是底层的方法还是数据挖掘。

4 大数据技术

从多种类型的数据中快速获取知识的能力,属于数据挖掘的衍生。

5 数据可视化

大数据时代,展示数据可以更好辅助理解数据、演绎数据。

以上几个层次,大家可以看看自己属于哪个层次。

其实以上都是理论上的问题。具体的问题,还是要落地实际上。

何为实际,就是你的会编程,你如果能够把这个变成出来,你的未来不可限量。

建模过程

这是PYCHARM中注解的要点:(逻辑回归模型的建模过程)

数据预处理

# 1,读入数据

# 2,选择合适的建模样本

# 3,数据集划分成训练集和测试集

第一步:数据预处理,包括

(1)数据清洗

(2)格式转换

(3)确实值填补

第二步:变量衍生

第三步:分箱,采用ChiMerge,要求分箱完之后:

(1)不超过5箱

(2)Bad Rate单调

(3)每箱同时包含好坏样本

(4)特殊值如-1,单独成一箱

连续型变量可直接分箱

类别型变量:

(a)当取值较多时,先用bad rate编码,再用连续型分箱的方式进行分箱

(b)当取值较少时:

(b1)如果每种类别同时包含好坏样本,无需分箱

(b2)如果有类别只包含好坏样本的一种,需要合并

第四步:WOE编码、计算IV

第五步:单变量分析和多变量分析,均基于WOE编码后的值。

(1)选择IV高于0.01的变量

(2)比较两两线性相关性。如果相关系数的绝对值高于阈值,剔除IV较低的一个

第六步:逻辑回归模型。

要求:

1,变量显著

2,符号为负

'''

第七步:模型验证

细节君扯淡曰:以上PYCHARM是我从行业资深者那里要到的一个建模代码,我把其中的注解部分罗列出来。终于明白,为什么科技公司估值高了。真的代表了未来。

关注细节君

让细节君陪伴你的进步

细节君

让风控、历史细节更加清晰

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181216A0V14300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券