什么是衡量火花阅读时间的最佳方法?
val rdd = spark.sparkContext.binaryFiles(s"$Path//$partitionColumn=$partitionId/*.avro")
implicit val streamEncoder: Encoder[(String, PortableDataStream)] = Encoders.kryo[(String, PortableDataStream)]
spark.createDataset(rdd)我用火花2.2
发布于 2022-04-11 10:57:59
我建议使用这个库:https://github.com/LucaCanali/sparkMeasure。
检查自述文件中可用的示例。就像这个数据库记事本。
例如,您可以使用runAndMeasure函数读取您的Avro:
taskMetrics.runAndMeasure(spark.createDataset(rdd).count())https://stackoverflow.com/questions/71824861
复制相似问题