在单个模板文件中将多个管道计划为不同的数据流作业_无法在Python中的单个数据流作业中动态加载多个流管道(N到N管道)(使用运行时值提供程序 - 腾讯云开发者社区

、

我有一个数据流任务，订阅来自PubSub的消息： p.apply("pubsub-topic-read", PubsubIO.readMessagesWithAttributes() .fromSubscription(options.getPubSubSubscriptionName()).withIdAttribute("uuid")) 我在文档中看到，不能保证不复制，比姆建议使用withIdAttribute。直到我排空一个现有作业，等待它完成并重新启动另一个作业，然后我看到数以百万计的重复BigQuery记录(我的作业将PubSub消息写入Big

浏览 21提问于2019-04-05得票数 1

1回答

设计

、

我们需要您对以下场景的数据流设计提供指导。需求:我们需要构建一个数据流作业来读取数据流MS数据库并写入Bigquery。我们需要数据流作业作为输入“表名列表”(源表和目标表名称)来读取和写入数据。问题:在每天的日程安排中，数据流是否可以将表列表(即50个表名)作为输入，并将数据从源复制到目标，还是将其设计为50个独立的数据流作业。数据流是否会自动调整员工数量-而不会降低源MS服务器？关键信息:源: MS数据库目标: Bigquery . of Table: 50进度表:每天早上8点写处理:写截断(或写附录)

浏览 4提问于2021-12-13得票数 -1

1回答

来自单个Google作业的并行DataFlow管道

我试图从一个DataFlow作业运行两个分离的管道，类似于下面的问题：如果使用单个DataFlow作业运行两个分离的管道，则使用单个p.run()，如下所示： ( p | 'Do one thing' >> beam.Create(List1) ) ( p | 'Do second thing' >> beam.Create(List2) ) result = p.run() result.wait_until_finish() 我认为它

浏览 2提问于2021-05-26得票数 0

1回答

在数据流模板作业完成后将消息发布到发布/订阅

我想在数据流作业成功完成后将消息发布到发布/订阅主题。为此，我使用wait_until_finish()，然后在确认管道已完成(当前状态为JOB_STATE_DONE)后发布一条消息。当我在本地执行管道(使用DirectRunner或DataflowRunner)时，我得到了所需的结果。但是，当我将此管道部署到模板，然后从模板创建作业时，p.run()外部的代码不会执行。这是我的管道的终点 result = p.run() result.wait_until_finish() publish_job_completion(result, all_pipeline_

浏览 13提问于2019-08-30得票数 0

1回答

对数据流模板使用BlockingDataflowPipelineRunner和后处理代码。

我想在管道完成所有处理后运行一些代码，所以我使用BlockingDataflowPipelineRunner，并将代码放在pipeline.run()之后的main中。当我使用BlockingDataflowPipelineRunner从命令行运行作业时，这是正确的。pipeline.run()下的代码在管道完成处理后运行。但是，当我尝试将作业作为模板运行时，它不起作用。我将作业部署为模板(使用TemplatingDataflowPipelineRunner)，然后尝试在云函数中运行模板，如下所示： dataflow.projects.templates.create({ proj

浏览 1提问于2017-06-05得票数 2

回答已采纳

2回答

如何使用Google提供的数据流模板更改默认网络

我正在尝试使用谷歌提供的模板PubSub to BigQuery设置一个数据流作业。然而，我在启动时得到了这个错误： Message: The resource 'projects/my-project/global/networks/default' was not found 我认为谷歌提供的模板是硬编码的，可以使用default网络。如果我在自动模式下创建default网络，该错误就会消失。但我们不能在生产中使用default网络。文档提到了一个network参数。我尝试从GCP console UI添加一个名为network的附加参数，传入我们的自定义网络名称。但是我

浏览 12提问于2018-02-01得票数 1

回答已采纳

2回答

数据流:在模板中使用运行时参数

正在尝试为数据流作业创建模板。有没有办法生成一个带有运行时参数的模板？到目前为止，无论在创建模板时使用了什么参数，但当我尝试为变量传递不同的值时，它不会选择运行时值。如果需要任何额外的细节，将提供相同的。

浏览 0提问于2018-09-06得票数 2

1回答

正在获取“请求包含无效参数。”当调用googleapis projects.jobs.create时

、、

我正在尝试通过API触发一个批处理数据流作业，所以我正在尝试让它在API explorer工具中工作。不幸的是，文档没有指定需要的参数是什么，所以我尝试了几次，但除了下面的响应之外，我什么也得不到： { "error": { "code": 400, "message": "Request contains an invalid argument.", "status": "INVALID_ARGUMENT" } } 有效负载需要是这个，但该文档是已经触发的作业的作业

浏览 37提问于2018-07-12得票数 0

2回答

由多个git恢复触发的Jenkins

、、、

我一直在寻找如何让10种不同的repos全部放在git上，触发一个几乎完全相同的管道-构建一个码头映像-except，不同的回购名称将用于码头图像回购，而特定的git提交将是标记。这有可能吗?还是我要把它分解成多条管道？理想情况下，当多个推送在短时间内发生时，我可以将作业排在队列中。

浏览 0提问于2019-11-13得票数 3

1回答

Apach波束/数据流转换通知

、、

我有一个批处理数据解析任务，其中输入是一个zip文件列表，每个zip文件都有许多要解析的小文本文件。按照在50个压缩文件中压缩100 of的顺序，每个zip有100万个文本文件。我在Python中使用Apache的包，并通过Dataflow运行作业。我把它写成从zip文件路径列表创建集合 FlatMap具有一个函数，它为zip中的每个文本文件生成一个字节字符串(一个输出是从文本文件读取的所有字节的字节字符串)。 ParDo有一个方法，该方法为从文本文件/字节读取的数据中的每一行生成 ...do其他内容，如在某些数据库的相关表中插入每一行我注意到这太慢了-- CP

浏览 3提问于2021-02-01得票数 1

2回答

Google云数据流中的Beam应用日志

、、

我有一个使用directrunner在本地成功运行的Beam应用程序，它提供了我在本地控制台上代码中的所有日志信息。但是，当我尝试在google数据流环境中运行它时，我只在本地控制台上看到这些日志信息，但是它们没有出现在Google控制台上，用于数据流作业，也没有出现在他们的StackDriver日志记录页面中。下面是我在本地控制台运行数据流运行程序代码时所做的工作： mvn compile exec:java -Dexec.mainClass= ... \ -Dexec.args=... " \

浏览 1提问于2017-09-16得票数 7

回答已采纳

1回答

从同一代码库为不同租户构建Jenkins Docker图像

、、、

我正在尝试为我的Spring微服务部署实现CI/CD管道。我计划使用Jenkins和Kubernetes来制作CI/CD管道。我有一个用于版本控制的SVN代码存储库。应用程序的性质我的应用程序的性质是，需要为多个租户部署一个微服务。实际上，代码是相同的，但是对于不同的租户，数据库配置是不同的。我正在使用Spring服务器管理配置。我的需求我的要求是，当我将代码提交到SVN代码存储库时，Jenkins需要提取我的代码，构建项目(Maven)，并为多个租户创建Docker。需要部署。这里的问题是，提交到一个代码存储库需要从同一个代码回购构建多个坞映像。意味着一个代码回购-多码头形象建设过

浏览 3提问于2018-08-02得票数 0

回答已采纳

1回答

数据流PubSub到弹性搜索模板代理

、、、

我们需要创建一个从PubSub到Elasticsearch的数据流作业，但是该作业不能使出站互联网连接到Elastic。是否有一种方法在创建时将代理参数传递给Dataflow vm？找到本文，但代理参数是maven应用程序的一部分，我不知道如何在这里使用它。谢谢

浏览 16提问于2022-08-04得票数 1

回答已采纳

1回答

Azure数据流ARM模板脚本中容器名称的参数化

、、、、

尝试使用ARM模板将ADF数据流部署到多个环境。我能够部署数据流的硬编码脚本。但是我需要将脚本中的存储帐户容器参数化。这是脚本的一部分源( 'containerName'，)(allowSchemaDrift: true，\n\tvalidateSchema: false，\n\tignoreNoFilesFound: false，\n\tformat：'delimited'，\n\tcontainer：'，\n\true：'\'，\n\tquoteChar：‘\’'，\n \n\tcolumnNamesAsHeader: f

浏览 1提问于2022-03-24得票数 0

1回答

如何使用gcloud上传到bigquery中的几个表

、、

有没有办法使用nodejs gcloud库或使用bq命令行在一个加载作业中将不同的数据上传到几个表中到bigquery？

浏览 14提问于2016-07-17得票数 1

回答已采纳

2回答

如何通过运行Google Compute Engine cron作业来调度数据流作业

、、、、

在Dataflow FAQ中，列出了在计算引擎上运行自定义(cron)作业进程是调度数据流管道的一种方法。我搞不懂到底该怎么做:如何在计算引擎上启动数据流作业和启动cron作业。谢谢!

浏览 29提问于2020-08-19得票数 1

回答已采纳

1回答

通过数据流将pubsub数据写入gcs

、、

我想通过数据流作业使用来自pubsub的数据，并将其存储到GCS的每小时目录中。什么是最好的方法？我尝试使用WindowedFilenamePolicy，但它添加了一个额外的group by，并在写入时减慢了写入操作。Dataflow正确地缓冲了数据，但在临时存储桶中写入数据的时间太长。对于这种相当常见的情况，有什么最佳实践吗？致以问候，Pari

浏览 12提问于2018-09-07得票数 0

3回答

如何部署Apache Beam/Spotify Scio管道？

、、

我已经创建了一个管道，它使用了Apache的Scio包装器。我想在中部署它。我希望有一个特定的按钮或端点或函数来定期执行此作业。我可以找到的所有指令都涉及运行sbt /pack，它构建工件并每次上传它们。如何上传工件一次，然后尽可能轻松地基于管道创建作业？

浏览 2提问于2018-10-24得票数 1

回答已采纳

1回答

Apache Beam / Google Dataflow最后一步只运行一次

、、

在bigquery上运行加载作业之前，我有一个下载数千个文件的管道，然后转换它们并将它们作为CSV存储在google云存储上。这可以很好地工作，但当我运行数千个加载作业(每个下载的文件一个)时，我达到了导入配额。我更改了代码，使其列出存储桶中的所有文件，并以所有文件作为作业的参数运行一个作业。所以基本上我需要最后一步只运行一次，当所有数据都被处理完的时候。我想我可以使用groupBy转换来确保所有数据都已被处理，但我想知道是否有更好/更标准的方法。

浏览 0提问于2018-04-11得票数 0

2回答

我应该为我的新Spring批处理作业使用Spring数据流服务器吗？

、、、、

我需要创建大约10个Spring批处理作业，它将由一个读取器和一个写入器组成。所有读取器从不同的Oracle DB读取数据，并写入不同的Oracle Db(源服务器和目标服务器不同)。Spring作业是使用Spring Boot实现的。另外，所有的10+作业都会被打包到一个Jar文件中。到目前为止一切都还好。现在，客户端还需要一些UI来监视作业状态并充当作业组织者。我仔细阅读了Spring Data flow Server文档以了解UI需求。但我不确定它是否会起作用，或者是否有其他可用选项可用于监视作业状态，在需要时从UI停止和启动作业。另外，如果这是UI的唯一选项，我如何在Spring

浏览 21提问于2020-04-14得票数 0

回答已采纳

2回答

如何从单个MYSQL查询中获取要删除的图像列表

、、

我在数据库中有一个表，跟踪每个主系统的所有图像，如下所示： Table: system_images field: systemid field: imglarge field: imgthumb 有时，系统会从数据库中删除，包括属于该系统条目的system_images中的所有记录。但是，镜像本身仍然物理地位于服务器上。目前有一个cron作业，它捕获目录中的所有图像，然后每次查询该图像是否仍在表中，如果不在，则从服务器中删除该图像。下面是当前的cron作业 $system_images = array_diff(scandir($global_productimages),array(

浏览 0提问于2018-02-15得票数 0

1回答

如何读取GCP数据流中CombineFn函数的日志消息？

、

我正在创建一个Apache光束流处理管道，以便在GCP数据流中运行。我有许多扩展DoFn和CombineFn的转换。在DoFn中，使用数据流作业详细信息中的日志窗口可以很好地显示日志。但是，不会显示来自CombineFn转换的日志。我尝试了不同的日志级别，但使用DirectRunner时，它们也显示得很好。下面是一些示例代码。为简洁起见，我将输入和输出更改为字符串，代码中有一些自定义类。 import java.io.Serializable; import org.apache.avro.reflect.Nullable; import org.apache.beam.sdk.code

浏览 15提问于2019-10-07得票数 0

1回答

如何为Apache /Dataflow经典模板(Python) &数据管道实现CI/CD管道

、、、

用Python实现Apache /Dataflow经典模板和管道的CI/CD构建过程的最佳方法是什么？我在Java中只找到了一些教程，其中包括工件注册+云构建，但很少有针对Python的深入教程。我想了解一种“最佳实践”的方法，它可以在Github中开发管道，然后有一个CI/CD管道，该管道可以自动生成模板&启动作业。这篇中等的文章是一个更有用的高级演练，但没有深入研究如何让所有工具协同工作：。

浏览 1提问于2022-08-23得票数 -2

3回答

建立执行管道的C++库

、

我一直在C++ (作业调度程序库？)中搜索一个可重用的执行管道库。我在里找不到任何东西。所以我最终找到了两位候选人：我错过其他候选人了吗？有人用过吗？它们在并行io和多线程方面有多好？这些库似乎仍然缺少依赖项处理。例如，在我看来，似乎不清楚如何写这样的东西： $ cat /dev/urandom | tr P Q | head -3 在这种非常简单的情况下，管道是自下而上的，当cat进程停止拉动时，第一个head停止执行。但是，我不知道如何才能从多线程和并行io中获益，以防出现这样的情况： $ cat /raid1/file1 /raid2/file2 | tr P Q

浏览 9提问于2013-03-08得票数 6

2回答

使用多字符分隔符将存储在谷歌云存储上的数据加载到BigQuery

、、、

我想将带有多个字符分隔符的数据加载到BigQuery。BQ load命令当前不支持多个字符分隔符。它只支持单个字符分隔符，如'|‘、'$’、'~‘等我知道有一种数据流方法，它将从这些文件中读取数据并写入BigQuery。但是我有大量的小文件(每个文件400MB)，它们必须写入一个单独的表分区(分区编号在700左右)。这种方法在处理数据流时速度很慢，因为我当前必须启动一个不同的数据流作业，以便使用for循环将每个文件写入单独的表。这种方法已经运行了超过24小时，但仍然没有完成。那么，是否有其他方法可以将这些具有多个字符分隔符的多个文件加载到BigQuery的每个分区？

浏览 22提问于2016-08-11得票数 3

回答已采纳

1回答

更新后数据流作业保留旧错误状态。

、、、

当我使用DataflowRunner提交数据流作业时(我使用的是使用Pub/Sub源代码的流作业)，我在定义BQ表名的执行参数(假设错误的表名是project)时犯了错误，作业引发了一些错误。然后，我使用--update命令更新了作业，使用了正确的表名，但是作业再次抛出了一些错误--即错误告诉我，我仍然使用project作为对象表名。简而言之，这就是我当时所做的事情： I提交一个数据流作业 python main.py \ --job_name=dataflow-job1 \ --runner=DataflowRunner \ --staging_location=gs://proje

浏览 2提问于2020-12-07得票数 2

回答已采纳

1回答

是否可以使用单个SCDF服务器并连接多个存储库？

我想利用SCDF服务器并动态连接到存储库，以计划/跟踪作业的进度。为每个租户提供一个SCDF服务器存储库(专用数据库)

浏览 18提问于2019-08-07得票数 0

2回答

Pub/Sub到Splunk Dataflow模板-在此服务器上找不到请求的URL

、、

我正在使用Dataflow模板(我已经尝试过latest和2020-11-02-00_RC00 of Cloud_PubSub_to_Splunk )，它将数据从公共主题流到splunk。我遵循了的所有步骤。我的工作论点是： JOB_NAME=pubsub-to-splunk-$USER-`date +"%Y%m%d-%H%M%S%z"` gcloud dataflow jobs run $JOB_NAME \ --subnetwork=https://www.googleapis.com/compute/v1/projects/<PROJECT>/reg

浏览 8提问于2020-11-16得票数 0

1回答

通过数据流SQL实现云发布/订阅到BigQuery

、、、

我想了解数据流管道的工作原理。在我的例子中，我有一些定期发布到云发布/订阅的内容，然后Dataflow将其写入BigQuery。通过的消息量数以千计，所以我的发布者客户端有1000条消息的批处理设置，1mb和10秒的延迟。问题是，在批处理中发布时，Dataflow SQL是接收批处理中的所有消息并将其一次性写入BigQuery，还是一次写入一条消息？有没有一个比另一个更好的好处呢？如果需要任何其他细节，请评论。谢谢

浏览 35提问于2021-11-23得票数 0

回答已采纳

1回答

AWS媒体转换器为每个文件创建新的作业？

、、

我正在研究AWS MediaConverter，并试图创建一个Node，该API将.mp4格式转换为.wav格式。我的api工作正常，但是它正在为每个单独的.mp4文件创建一个新作业。是否可以有一个MediaConvert作业，并将其用于input_bucket中的每个文件，而不是为每个文件创建一个新作业？我试过阅读AWS的MediaConvert文档和各种在线文章，但我无法看到对我的问题的任何回答。我尝试按以下步骤实现我的api：创建类的对象 AWS.MediaConvert() 使用创建作业模板 MediaConvert.createJobTemplate 使用创建一个职务 M

浏览 16提问于2022-09-09得票数 0

回答已采纳

1回答

当存在与转换相关的数据流活动时，Azure数据工厂转换管道的执行时间超过5分钟

、、、、

我已经创建了一个带有数据流活动的管道，该活动将我的输入文件中的两个字段连接起来。我的输入文件包含5行数据和4个字段。我正在使用.net SDK通过visual studio创建这些东西。当我创建这个作业并运行它时，它的执行时间超过了5分钟。我感觉这是在内部启用数据流调试器，这就是为什么它要花费这么多时间。我只想知道我的答案对不对。如果没有，请告诉我为什么5条记录都要花这么多时间？谢谢

浏览 10提问于2020-09-17得票数 0

2回答

SSIS多个数据目标

我对Integration Services还很陌生。是否可以有一个数据源将数据传输到多个数据目标，或者我是否必须创建与目标一样多的源？我有一个包含数据的CSV文件，我必须将这些数据分发到不同的表中。

浏览 1提问于2013-06-07得票数 23

回答已采纳

1回答

云数据流-增加JVM Xmx值

、、

我们正试图在云中运行Google Cloud Dataflow作业，但我们不断得到"java.lang.OutOfMemoryError: Java heap space“。我们正在尝试处理来自Big Query表的6.1亿条记录，并将处理后的记录写入12个不同的输出(主输出+ 11个副输出)。我们已经尝试将我们的实例数量增加到64个n1-standard-4实例，但是我们仍然遇到这个问题。虚拟机上的XMX值似乎设置为~4 4GB(-Xmx3951927296)，即使实例具有15 4GB内存也是如此。有什么方法可以增加Xmx的值吗？作业ID为- 2015-06-11_21_32

浏览 0提问于2015-06-12得票数 6

1回答

我能否在Synapse管道中将参数传递给多个笔记本？

我有一个Synapse管道，10本笔记本按顺序执行。这些记事本接受各种参数，其中一些参数对于所有或几个笔记本都是通用的。与其为每个笔记本定义这些参数的值(这是重复的)，我想知道我是否可以在流水线级定义它们一次，并将它们传递到使用它们的每个笔记本中？到目前为止，我尝试用缺省值在管道级别定义一个参数( myparam )，然后在笔记本参数中，我将管道参数称为@pipeline().parameter.myparam，我认为它将采用在管道级别定义的默认值--但它没有。我试图做的事情是否可能？提前谢谢。

浏览 5提问于2022-03-31得票数 0

2回答

云数据流中并发作业的最大数目

并发数据流作业(不是核心)的数量是否有限制？我试图提交~40个小作业并行运行，但在7个作业后开始得到429个超过错误的速率限制。谢谢你，G

浏览 0提问于2015-01-21得票数 2

回答已采纳

2回答

创建数据流经典模板，通过DataflowflowTemplatedJobOperator编排作业

、、、

我试图创建和舞台数据流经典模板。以下是以下连结内的文件- 。 mvn编译exec:java \ -Dexec.mainClass=com.example.myclass \-Dexec.args=“--=DataflowRunner\-PROJECT=PROJECT_ID\-stagingLocation=gs://-Dexec.mainClass=com.example.myclass_NAME/staging\-Dexec.args=-REGION=-Dexec.args=” 作曲家 start_job = DataflowTemplatedJobStartOperator( t

浏览 7提问于2022-01-30得票数 1

1回答

如何知道设置了多少个虚拟机来运行我的数据流作业？

我使用数据流服务来运行我的作业，从GCS读取数据并写入BQ表，作业运行成功，我想知道如何或在哪里可以找到google为我的作业设置了多少个虚拟机的信息？谢谢。

浏览 0提问于2015-02-10得票数 1

3回答

谷歌数据流每项作业是否有BT写原子？

也许我是个糟糕的探索者，但我在文档中找不到答案，所以我只想在这里试试运气。所以我的问题是，如果我有一个数据流作业，它会写到BigQuery或BigTable，但是作业失败了。数据流是否能够在启动前回滚到状态，或者我的表中可能只是部分数据？我知道写GCS似乎不是原子的，在作业运行的过程中会产生部分输出分区。但是，我已经尝试过通过数据流将数据转储到BQ中，并且在作业声称成功之前，输出表似乎不会公开给用户。

浏览 6提问于2016-08-05得票数 1

回答已采纳

3回答

在数据流中使用自定义停靠容器

通过这个链接，我发现Google Cloud Dataflow为它的工作者使用了Docker容器：我发现找到docker容器的图像名称是可能的。但是，有没有一种方法可以获得这个docker容器(例如，我应该从哪个存储库获取它？)，修改它，然后指示我的数据流作业使用这个新的docker容器？我这样问的原因是，我们需要在dockers上安装各种资源和Fortran以及其他库代码，以便数据流作业可以调用它们，但是这些安装非常耗时，所以我们不想在df中使用“C++”属性选项。

浏览 1提问于2017-06-10得票数 8

1回答

在GIT Repos或管道中保护或锁定Azure YAML

、、、、

我有两个Azure Git Repos，对于两个团队，每个团队只能查看，并贡献自己的回复。团队1/Repo1 Entry.yaml Team2 2/Repo2 Extends.yaml repo1包含YAML文件和内容。 Entry.yaml归Team2所有，在Repo1 resources: repositories: - repository: repoSource type: git name: Project1/repo2 extends: template: extends.yaml@repoSource extend

浏览 2提问于2022-06-28得票数 0

1回答

AzureML中的管道

、、、、

我试图创建一个流程，作为不同的实验进行列车测试分裂，训练，验证，得到最佳的模型(在8个不同的阿尔戈斯)和预测。问题是，我需要建立一个依赖的实验，我需要帮助。我知道蓝色的毫升管道，但我正在寻找一些东西，我们可以创建管道的管道，或将帮助我创建一个管道的多重实验(依赖)。例如，对于示例流水线：(列车测试-拆分)->(列车定制，多模型)->(验证)->(Getbest)->(预测)将在任务之间进行其他实验，如注册modls.downloading泡菜等。

浏览 6提问于2021-12-31得票数 2

1回答

带窗口的GroupByKey之后，Beam管道不会产生任何输出，我得到了内存错误。

、、

目的：我想加载流数据，然后添加一个键，然后按键对它们进行计数。问题：当我尝试使用流方法(无界数据)按键加载和分组数据时，会得到一个内存错误。因为数据似乎是在分组中积累的，并且它不会在触发每个窗口时提前触发数据。如果我减少了元素大小(元素计数不会改变)，它就能工作！因为实际上，按步骤分组等待所有数据被分组，然后触发所有新的窗口数据。我用这两种方法测试：梁版本2.11.0和scio版本0.7.4 beam版本2.6.0和scio版本0.6.1 重新生成错误的方法：读取包含文件名的Pubsub消息将相关文件从GCS读取并加载为逐行迭代器逐行扁平(因此它生成大约10,00

浏览 3提问于2019-04-12得票数 4

1回答

有没有办法使用gcloud命令更新数据流作业？

、

我正在尝试编写一个脚本来自动化Java数据流作业的部署。该脚本创建一个模板，然后使用命令 gcloud dataflow jobs run my-job --gcs-location=gs://my_bucket/template 问题是，如果作业已经存在并且正在运行，我想要更新作业。如果我通过maven运行作业，我可以执行更新，但我需要通过gcloud执行此操作，这样我才能拥有一个用于部署的服务帐户，以及另一个用于运行作业的帐户。我尝试了不同的方法(在命令行中添加--参数更新)，但总是得到一个错误。有没有办法专门通过运行gcloud数据流作业来更新数据流作业？

浏览 38提问于2020-06-17得票数 2

回答已采纳

1回答

GCP Dataflow API不计算在dataprep上编写的配方中调用的now/today()函数

、

启动dataflow.projects.locations.templates.launch(i ()函数(我也测试了"now()“函数)生成的列在作业执行期间似乎没有被求值。报告的日期始终以第一次创建模板的日期填充。这是一个正确的行为吗？为什么没有使用作业启动日期填充该列？

浏览 1提问于2018-09-25得票数 0

3回答

从计算引擎运行数据流作业

、、、

我正在按照快速入门链接运行数据流作业当我从google cloud shell运行mvn命令时，它工作得很好。 mvn compile exec:java \ -Dexec.mainClass=com.example.WordCount \ -Dexec.args="--project=<my-cloud-project> \ --stagingLocation=gs://<my-wordcount-storage-bucket>/staging/ \ --output=gs://<my-wordcou

浏览 1提问于2018-07-14得票数 1

1回答

如何在数据流管道中实现PubSubIO中的流量控制设置

、、、、

在我们的应用程序中，我们在数据流管道中使用PubsubIO从PubSub读取数据。下面是代码。 PCollection<String> pubsubMsg = pipeline .apply(PubsubIO.readStrings().fromSubscription(options.getInputSubscription1())) PCollection<String> groupByBigqueryResult = pubsubMsg.apply("Read from bigquery table",

浏览 12提问于2020-03-25得票数 1

1回答

在蔚蓝管道中避免跨多个池的步骤重复

我有一个网络标准库，我想在多个平台(Windows和Linux)上构建和测试它。目前我必须这样做 jobs: - job: Linux pool: vmImage: ubuntu-16.04 steps: # A number of steps here - job: Windows pool: vmImage: vs2017-win2016 steps: # The exact same steps as the linux job 有没有办法避免重复两个作业之间的步骤？

浏览 3提问于2018-09-25得票数 1

回答已采纳

1回答

如何使用Java获取当前数据流作业的详细信息？

我试图获得当前数据流作业的详细信息，如id、名称、类型、启动时间、结束时间等，一旦作业在BlockingDataflowPipelineRunner上完成。类似于我们在数据流仪表板中看到的细节，我使用了下面的代码来获得状态， Pipeline p; ... ... PipelineResult result = p.run(); switch (result.getState()) { case CANCELLED: break; case DONE: //Me

浏览 3提问于2017-09-15得票数 3

回答已采纳

1回答

Azure Data数据流:时间戳字符串的管道表达式问题

、、

我正在使用数据流处理从雪花到adls的adf：我使用管道表达式： @concat('SELECT * FROM mySchema.myTable WHERE loadDate >= ', '''', '2022-07-01', '''') 它在错误消息中失败：对目标复制数据的操作失败：{"StatusCode":"DF-Executor-StoreIsNotDefined"，“Message”：“作业由于原因失败:存储配置未定义。此错误可能是由管道中的

浏览 5提问于2022-07-11得票数 0

回答已采纳

1回答

使用PubSubIO +消息保证关闭和更新Google中的作业

我一直在查看google的源代码和文档，我没有看到任何关于PubSubIO.Read消息传递语义的提及。我想要理解的问题是: PubSubIO和Google提供了什么样的消息传递语义？根据我对源的读取，消息在使用ProcessingContext#output方法发出之前就会被加起来。这意味着数据流流作业将丢失已被添加和未传递的消息。因此，在发生故障和重新部署作业时，Dataflow如何保证windows (特别是会话)周围的正确性(如果有的话)。

浏览 3提问于2015-10-27得票数 2

回答已采纳