特征值, 目标值
判定男女
特征值(已知的): 身高, 体重, 头发长度, 体征(很多)
目标值(未知的): 男, 女
样本
如果对全班学生成绩进行分析,一个学生就是一个样本
----...特征工程:
特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性
特征抽取
特征预处理
特征降维
1.特征抽取
1.1 字典特征抽取: 万能的0和1之字典特征抽取...(one-hot编码)
1.2 文本特征抽取: 对自然语言进行情感分析(CountVectorizer, TfidfVectorizer)
one-hot编码(字典,列表类型均可)
机器会将所有样本中..., 出现过的特征统统列举出来,然后每个样本挨个比对所有特征,如果存在对应的特征则取1, 不存在则取0
one-hot
from sklearn.feature_extraction.text...())
# 将数据以类one_hot编码方式展示
print(data.toarray())
2.特征预处理
通过特定的统计方法(数学方法)将数据转换成算法要求的数据
2.1 归一化
将某一列类型的数据