我试图从一个DataFlow作业运行两个分离的管道,类似于下面的问题:
如果使用单个DataFlow作业运行两个分离的管道,则使用单个p.run(),如下所示:
(
p | 'Do one thing' >> beam.Create(List1)
)
(
p | 'Do second thing' >> beam.Create(List2)
)
result = p.run()
result.wait_until_finish()
我认为它
我正在尝试使用谷歌提供的模板PubSub to BigQuery设置一个数据流作业。然而,我在启动时得到了这个错误:
Message: The resource 'projects/my-project/global/networks/default' was not found
我认为谷歌提供的模板是硬编码的,可以使用default网络。如果我在自动模式下创建default网络,该错误就会消失。但我们不能在生产中使用default网络。
文档提到了一个network参数。我尝试从GCP console UI添加一个名为network的附加参数,传入我们的自定义网络名称。但是我
我正在使用Dataflow模板(我已经尝试过latest和2020-11-02-00_RC00 of Cloud_PubSub_to_Splunk ),它将数据从公共主题流到splunk。我遵循了的所有步骤。
我的工作论点是:
JOB_NAME=pubsub-to-splunk-$USER-`date +"%Y%m%d-%H%M%S%z"`
gcloud dataflow jobs run $JOB_NAME \
--subnetwork=https://www.googleapis.com/compute/v1/projects/<PROJECT>/reg
我正在尝试编写一个脚本来自动化Java数据流作业的部署。该脚本创建一个模板,然后使用命令 gcloud dataflow jobs run my-job --gcs-location=gs://my_bucket/template 问题是,如果作业已经存在并且正在运行,我想要更新作业。如果我通过maven运行作业,我可以执行更新,但我需要通过gcloud执行此操作,这样我才能拥有一个用于部署的服务帐户,以及另一个用于运行作业的帐户。我尝试了不同的方法(在命令行中添加--参数更新),但总是得到一个错误。有没有办法专门通过运行gcloud数据流作业来更新数据流作业?
我有一个网络标准库,我想在多个平台(Windows和Linux)上构建和测试它。
目前我必须这样做
jobs:
- job: Linux
pool:
vmImage: ubuntu-16.04
steps:
# A number of steps here
- job: Windows
pool:
vmImage: vs2017-win2016
steps:
# The exact same steps as the linux job
有没有办法避免重复两个作业之间的步骤?