',
names=True,
# 只有数字列
usecols=[4,5,6,8,11,12,13,14,15,16,17,18,19,20]
)
.genfromtxt(...)方法以文件名作为第一个(...最后,usecols参数指定文件中哪些列要存进csv_read对象。
最终可以计算出要求的数据:
.genfromtxt(...)方法创建的数据是一系列元组。....不过这里还是有一个陷阱:所有的观测值被选出的概率相同,可能我们得到的样本中,变量的分布并不能代表整个数据集。...我们还使用了DataFrame的.append(...)方法:有一个DataFrame对象(例子中的sample),将另一个DataFrame附加到这一个已有的记录后面。...要保证精确度,我们训练和测试不能用同样的数据集。
本技法中,你会学到如何将你的数据集快速分成两个子集:一个用来训练模型,另一个用来测试。
1.