我想为spark应用程序收集不同的指标,如果有人知道如何获得HDFS字节读写,请告诉我?
发布于 2018-04-28 00:46:18
我正在寻找同样的信息,但我在任何地方都找不到: Spark文档和Spark用户的邮件列表(即使有些人是asking the question)都没有给我提供这些信息。
但是,我在互联网上找到了some clues,它在指标中表明它是由Spark提供的。
我正在处理一些应用程序日志(由历史服务器提供的日志),似乎每个SparkListenerTaskEnd事件中Task Metrics中的Input Metrics和Output Metrics都给出了为每个任务读取和写入的数据量。
{
  "Event": "SparkListenerTaskEnd",
  ...
  "Task Metrics": {
      ...
      "Input Metrics": {
        "Bytes Read": 268566528,
        "Records Read": 2796202
      },
      "Output Metrics": {
        "Bytes Written": 0,
        "Records Written": 0
      },
      ...
  },
  ...
}请注意,我对此不是100%确定,但我得到的日志似乎与此假设一致:)
此外,如果您从本地文件系统读取,我认为这将混合在相同的度量中。
https://stackoverflow.com/questions/36715858
复制相似问题