Python 数据挖掘入门与实践：第三章

文章来源：企鹅号 - Music1973

边听边看

本章py文件的链接如下，使用的是笔者自己整理的数据集，下载后使用PythonIDLE打开使用：链接：https://pan.baidu.com/s/1RKa57TNTw3xS8D2c_hH-hw

密码：56d8；

下方链接为笔者自己整理的数据，可以按照书中代码对其处理：链接：https://pan.baidu.com/s/1ThHIC8JPhiFY_CrqfUPvdw密码：yzre；

原始 NBA数据获取地址如下：

https://www.basketball-reference.com/leagues/NBA_2014_games.html；

点击share&more转换为csv格式复制即可，但每次只能获取一个月的数据，整个赛季的数据需要自己把多个月的数据整合；

下方为网友处理后版本NBA数据，可以直接达到书中38页的输出效果：

链接：https://pan.baidu.com/s/1ewB3FdBx8aqb5QvEY4Ta8A密码：7yek；

在3.1.4提取新特征的内容中，如果按照书本上的代码，是无法得到35页的表格的，书中代码如下：

按书中代码，得到的结果是：

故此需要添加两行代码：

决策树是一种有监督的机器学习算法，退出准则是决策树的一个重要特性；

sklearn.preprocessing.LabelEncoder的用法：

Numpy.vstack的用法：函数原型：vstack(tup) ，参数tup可以是元组，列表，或者numpy数组，返回结果为numpy的数组；

n_values_属性：取每个特征的最大特征值+1，具体到代码里，[[0, 0, 3], [1, 1, 0], [0, 2,1],[1, 0, 2]]是我们的样本矩阵，[0, 0, 3]是一个样本，每个样本有三维，即三类特征。对于第一维或者说第一类特征，有0，1两种取值；第二类特征，有0，1，2两类特征；第三类特征，有0，1，2，3三类特征，所以：

enc.n_values_ : [2 3 4]

feature_indices_：根据说明，明显可以看出其是对n_values的一个累加，首位为0;0,（0+2）,（0+2+3），（0+2+3+4）=0, 2, 5, 9;

以下为代码截图：

发表于: 2018-03-202018-03-20 22:30:43
原文链接：http://kuaibao.qq.com/s/20180320G1T0NM00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Python 数据挖掘入门与实践：第三章

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐