pd.read_csv ('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')
#观察前几行数据,可以发现,数据种类各异,数值型...,数据都转人pandas独有的dataframe格式(二维数据表格),直接使用info() ,查看数据的统计特性。...,有些则是字符串。...sex与pclass两个数据列的值都是类别型的,需要转化为数值特征,用0/1代替。
#首先我们补充age里的数据,使用平均数或者中位数都是对模型偏离造成最小影响的策略。...import DictVectorizer
vec = DictVectorizer (sparse= False)
#转换特征后,我们发现凡是类别型的特征都单独剥离出来,独成一列特征,数值型的则保持不变