数据必须匹配3个条件:第一列中的-No标题行-Outcome变量,其余列中的要素-All列需要为数字 我得到的错误如下: Error for Training job xgboost-2019-colon not found in firstline
'0.0,0.0,99.0,314.07,1.0,0.0,0.0,0.0,0.48027846,0.0...' of file 'train.csv' 在
我实际上是想写一个拼图文件,第一行只包含标题日期,其他行包含详细记录。我已经有了一个包含上述内容的csv文件sample.csv。当作为数据帧读取时,csv文件只包含第一个字段,因为第一行只有一列。rdd = sc.textFile('hdfs://somepath/sample.csv')df.show()
o