如何在pyspark MLlib中读取csv？

在pyspark MLlib中读取CSV文件可以通过以下步骤实现：

from pyspark.sql import SparkSession
from pyspark.ml.feature import VectorAssembler

spark = SparkSession.builder.appName("CSV Reader").getOrCreate()

df = spark.read.csv("path/to/csv/file.csv", header=True, inferSchema=True)

其中，"path/to/csv/file.csv"是CSV文件的路径，header=True表示第一行是列名，inferSchema=True表示自动推断列的数据类型。

assembler = VectorAssembler(inputCols=df.columns, outputCol="features")
data = assembler.transform(df).select("features")

这里使用VectorAssembler将所有列合并为一个名为"features"的特征向量列。

至此，你已经成功将CSV文件读取为MLlib所需的数据格式。

注意：以上代码示例中没有提及具体的腾讯云产品，因为pyspark MLlib是Apache Spark的一部分，与云计算品牌商无关。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云