问CDAP是否支持SparkCompute和SparkSink插件中的多个输入？
EN

Stack Overflow用户

提问于 2019-05-22 23:26:14

回答 1查看 143关注 0票数 1

我正在寻找一种方法来实现一个SparkCompute (或SparkSink)插件，从多个输入消费。

从界面上看，SparkCompute和SparkSink插件都被限制为只能使用一个。

这是io.cdap.cdap.etl.api.batch.SparkCompute的摘录

  /**
   * Transform the input and return the output to be sent to the next stage in the pipeline.
   *
   * @param context {@link SparkExecutionPluginContext} for this job
   * @param input input data to be transformed
   * @throws Exception if there is an error during this method invocation
   */
  public abstract JavaRDD<OUT> transform(SparkExecutionPluginContext context, JavaRDD<IN> input) throws Exception;

(方法签名中只有一个JavaRDD<IN>参数)

有没有办法访问所有的输入(通过SparkExecutionPluginContext context或类似的东西)？

google-cloud-data-fusion

cdap

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-05-24 08:39:56

在CDAP管道中，当一个阶段有多个输入阶段时，它接收所有传入数据的联合。这就是管道框架不允许您在传入模式不同的地方创建管道的原因。唯一的例外是joiner插件。因此，它正在处理多个输入，但不是以一种让您区分它们的方式。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56260257

复制

相似问题

问CDAP是否支持SparkCompute和SparkSink插件中的多个输入？
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CDAP是否支持SparkCompute和SparkSink插件中的多个输入？EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CDAP是否支持SparkCompute和SparkSink插件中的多个输入？
EN