如何将DataFrame转换为RDD[Point]而不是RDD[ROW]？

将DataFrame转换为RDD[Point]而不是RDD[ROW]，可以通过以下步骤实现：

from pyspark.sql import SparkSession
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler

spark = SparkSession.builder.getOrCreate()

data = [(Vectors.dense([1.0, 2.0, 3.0]),), (Vectors.dense([4.0, 5.0, 6.0]),)]
df = spark.createDataFrame(data, ["features"])

assembler = VectorAssembler(inputCols=["features"], outputCol="vector")
df_vector = assembler.transform(df)

def vector_to_point(row):
    return row.vector.toArray()

rdd_point = df_vector.rdd.map(vector_to_point)

现在，你可以使用RDD[Point]进行进一步的处理和分析。请注意，这里的RDD[Point]是指RDD中的每个元素都是一个Point对象，Point对象是由MLlib库提供的，用于表示向量的类。

这是一个完整的示例代码，你可以根据需要进行修改和扩展。关于DataFrame、RDD、Point以及其他相关概念的详细信息，请参考腾讯云的官方文档和相关产品介绍页面。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云