首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Spark Streaming连接Flume的两种方式

    Spark提供了两种不同的接收器来接受Flume端发送的数据。 推式接收器该接收器以 Avro 数据池的方式工作,由 Flume 向其中推数据。设置起来非常简单,我们只需要将Fluem简单配置下,将数据发送到Avro数据池中,然后scala提供的FlumeUtils代理对象会把接收器配置在一个特定的工作节点的主机名和端口上。当然,这些配置需要和Flume保持一致。    虽然这种方式很简洁,但缺点是没有事务支持。这会增加运行接收器的工作节点发生错误 时丢失少量数据的几率。不仅如此,如果运行接收器的工作节点发生故障,系统会尝试从 另一个位置启动接收器,这时需要重新配置 Flume 才能将数据发给新的工作节点。这样配 置会比较麻烦。 拉式接收器该接收器设置了一个专门的Flume数据池供Spark Streaming拉取数据,并让接收器主动从数据池中拉取数据。这种方式的优点在于弹性较 好,Spark Streaming通过事务从数据池中读取并复制数据。在收到事务完成的通知前,这 些数据还保留在数据池中。 当你把自定义 Flume 数据池添加到一个节点上之后,就需要配置 Flume 来把数据推送到这个数据池中,

    02
    领券