pySpark writerStream未将输出显示到Jupyter实验室的控制台

pySpark是一个用于大规模数据处理的Python库，它提供了一种高级API来操作分布式数据集。writerStream是pySpark中用于将流数据写入外部系统的方法。在Jupyter实验室中，默认情况下，writerStream的输出不会直接显示在控制台上，但我们可以通过一些方法来实现。

要将writerStream的输出显示到Jupyter实验室的控制台，可以使用以下步骤：

from pyspark.sql import SparkSession
from pyspark.streaming import StreamingContext

spark = SparkSession.builder.appName("StreamingExample").getOrCreate()
ssc = StreamingContext(spark.sparkContext, 1)

spark.sparkContext.setLogLevel("WARN")

def output_func(rdd):
    rdd.foreach(lambda record: print(record))

lines = ssc.socketTextStream("localhost", 9999)
lines.foreachRDD(output_func)

ssc.start()
ssc.awaitTermination()

通过以上步骤，我们可以将writerStream的输出显示到Jupyter实验室的控制台。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云