我有一个包含两列的CSV文件id列是一个字符串,而feature列是机器学习算法ie的一个逗号分隔的特征值列表。"1,4,5“我基本上只需要在值上调用Vectors.parse()来获得一个向量,但我不想首先转换为RDD。我想把它放到Spark Dataframe中,其中的features列是一个org.apache.spark.mllib.linalg.Vector
我正在使用databricks csv api
我有一个从dataframe过滤和选择值的UDF,但它遇到了"object not serializable“错误。详情见下文。假设我有一个dataframe df1,它的列具有名称("ID“、"Y1”、"Y2“、"Y3”、"Y4“、"Y5”、"Y6“、"Y7”、"Y8“、"Y9”、"Y10")。我想要根据来自另一个dataframe df2的匹配的"ID“和"Value”对