testPassengerId = test.select('PassengerId').map(lambda x: x.PassengerId)
我希望选择PassengerId列并对其进行RDD。但是.select不起作用。它说'RDD‘对象没有属性'select’
发布于 2016-10-20 02:25:42
你可以试试下面的方法,
testPassengerID = test.select('PassengerID').rdd这将选择列PassengerID并将其转换为rdd
发布于 2016-05-18 09:52:39
'RDD' object has no attribute 'select'
这意味着test实际上是一个RDD,而不是一个dataframe (您假设它是这样的)。要么将其转换为数据格式,然后应用select,要么在RDD上执行map操作。
如果你需要帮助的话请告诉我。
发布于 2016-05-18 11:11:41
假设您有一个RDD,其中的每一行都是(passenger_ID, passenger_name)格式的,那么您可以执行rdd.map(lambda x: x[0])。这是一个基本的RDD
如果使用Spark,则有要按列名选择的函数。
https://datascience.stackexchange.com/questions/9588
复制相似问题