首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python 数据挖掘入门与实践:第三章

边听边看

本章py文件的链接如下,使用的是笔者自己整理的数据集,下载后使用PythonIDLE打开使用:链接:https://pan.baidu.com/s/1RKa57TNTw3xS8D2c_hH-hw

密码:56d8;

下方链接为笔者自己整理的数据,可以按照书中代码对其处理:链接:https://pan.baidu.com/s/1ThHIC8JPhiFY_CrqfUPvdw密码:yzre;

原始 NBA数据获取地址如下:

https://www.basketball-reference.com/leagues/NBA_2014_games.html;

点击share&more转换为csv格式复制即可,但每次只能获取一个月的数据,整个赛季的数据需要自己把多个月的数据整合;

下方为网友处理后版本NBA数据,可以直接达到书中38页的输出效果:

链接:https://pan.baidu.com/s/1ewB3FdBx8aqb5QvEY4Ta8A密码:7yek;

在3.1.4提取新特征的内容中,如果按照书本上的代码,是无法得到35页的表格的,书中代码如下:

按书中代码,得到的结果是:

故此需要添加两行代码:

决策树是一种有监督的机器学习算法,退出准则是决策树的一个重要特性;

sklearn.preprocessing.LabelEncoder的用法:

Numpy.vstack的用法:函数原型:vstack(tup) ,参数tup可以是元组,列表,或者numpy数组,返回结果为numpy的数组;

n_values_属性:取每个特征的最大特征值+1,具体到代码里,[[0, 0, 3], [1, 1, 0], [0, 2,1],[1, 0, 2]]是我们的样本矩阵,[0, 0, 3]是一个样本,每个样本有三维,即三类特征。对于第一维或者说第一类特征,有0,1两种取值;第二类特征,有0,1,2两类特征;第三类特征,有0,1,2,3三类特征,所以:

enc.n_values_ : [2 3 4]

feature_indices_:根据说明,明显可以看出其是对n_values的一个累加,首位为0;0,(0+2),(0+2+3),(0+2+3+4)=0, 2, 5, 9;

以下为代码截图:

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180320G1T0NM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券