我有一些关于Python的工作知识,但对Apache光束来说还是个新手。我遇到了一个来自Apache光束的例子,是关于一个简单的字数统计程序。让我感到困惑的代码片段如下所示: pipeline_options = PipelineOptions(pipeline_args)
pipeline_options.view_as(SetupOptions).save_main_session = save_main_session
with beam.Pipeline(options=pipeline_options) as p:
# Read the text file[p
令人困惑的是,每个关于数据流的谷歌文档都说它现在是基于Apache光束的,并将我引导到光束网站。此外,如果我查找github项目,我会发现google dataflow项目是空的,并且所有的项目都转到apache see repo。假设我现在需要创建一个管道,根据我从Apache光束中读到的,我会这样做:from apache_beam.options.pipeline_options然而,如果我使用google-cloud-dataflow,我会得到错误:no module named 'options',结果我应该使用from apache_beam.utils.pipel
我在从本地机器向我们的云平台提交Apache光束示例时遇到了问题。
但是当我尝试运行python wordcount示例时,我得到了以下错误:
IOError: Could not upload to GCS path gs://my_bucket/tmp: access denied.
Please verify that credentials are valid and that you have write access
to the specified path.
当我尝试使用direct runner从Apache光束调用我的Spring应用程序时,我得到了下面的异常。 org.apache.beam.sdk.Pipeline$PipelineExecutionException:
java.lang.IllegalAccessError: class
io.grpc.internal.CensusTracingModule$TracingClientInterceptor tried to access
private field io.opencensus.trace.unsafe.ContextUtils.CONTEXT_SPAN_KEY
收到以下消息:The Dataflow appears to be stuck. Please reach out to the Dataflow team at http://stackoverflow.com/questions/tagged/google-cloud-dataflow.
我意识到还有关于同一错误消息的其他问题,但每个错误消息的上下文似乎不同,并且消息相当通用,所以我再次发布。
作业ID: 2017-09-25_09_27_25-5047889078463721675
请协助。谢谢。
编辑:在从2.0.0更新到用于Python 2.1.1的Apache光束SDK后,问题似乎
我想使用Spring与Apache光束,这将运行在谷歌云数据流运行。数据流作业应该能够在执行管道步骤时使用Spring Runtime应用程序上下文。我想在我的Apache光束管道中使用Spring特性来实现DI和其他东西。在google上浏览了几个小时后,我找不到任何关于在Apache Beam中集成Spring的帖子或文档。所以,如果有人尝试过spring和Apache beam,请让我知道。 在main类中,我已经初始化了spring应用程序上下文,但在执行管道步骤时它不可用。对于自动连接的bean,我得到了空指针异常。我猜问题在于,在运行时上下文对工作线程不可用。 public s
我尝试在本地部署的Flink Docker集群上部署一个Apache光束管道。 管道失败,出现以下错误 The RemoteEnvironment cannot be instantiated when running in a pre-defined context (such as Command Line Client, Scala Shell, or TestEnvironment)
org.apache.flink.api.java.RemoteEnvironmentConfigUtils.validate(RemoteEnvironmentConfigUtils.java:52)