不能由DataflowRunner执行_我的PHP文件不能由cronjob执行_由case执行的EventListener - 腾讯云开发者社区

python、google-cloud-platform、google-cloud-dataflow、google-cloud-sql

我正试图用python管道连接到CloudSQL。实际情况我可以在没有任何问题的情况下使用DirectRunner 我不能用DataflowRunner连接连接函数 def cloudSQL(input): import pymysql connection = pymysql.connect(host='<server ip>', user='...', passwor

浏览 0提问于2018-12-18得票数 5

4回答

DataflowRunner需要gcpTempLocation，但无法从PipelineOptions检索值。

java、google-cloud-platform、google-cloud-storage、google-cloud-dataflow、dataflow

我正在创建一个演示管道，使用我的免费谷歌帐户将CSV文件加载到BigQuery中。这就是我要面对的。当我从GCS文件中读取并记录数据时，这是完美的。下面是我的示例代码。，这段代码运行良好， DataflowPipelineOptions options = PipelineOptionsFactory.as(DataflowPipelineOptions.class); options.setProject("project12345"); options.setStagingLocation("gs://mybucket/staging"); option

浏览 0提问于2019-07-08得票数 3

1回答

使用云函数触发数据流(Python SDK)作业

google-cloud-dataflow

我需要在gcs中处理传入的csv文件。我不能在云中通过shell命令触发执行-函数如下： subprocess.run([ "python", "-W", "ignore", "dataflow_ingestion_engine.py", "gs://logs-check/csv_input/input2.csv", "--runner", "DataflowRunner"] ) 或 command = """ python tmp/

浏览 4提问于2019-10-22得票数 0

回答已采纳

1回答

使用DataFlowRunner时未实现波束/ DataFlow意外错误ProtocolMessageEnum

protocol-buffers、google-cloud-dataflow、apache-beam、dataflow

当在本地运行我的Beam管道时，它完全按预期工作，但是当尝试在DataflowRunner上运行它时，我突然得到下面的错误。老实说，我甚至不知道从哪里开始评估它，因为DataflowRunner似乎是一个黑匣子。 Jan 14, 2019 11:26:51 AM org.apache.beam.runners.dataflow.DataflowRunner fromOptions INFO: PipelineOptions.filesToStage was not specified. Defaulting to files from the classpath: will stage 165

浏览 0提问于2019-01-14得票数 1

1回答

GoogleJsonResponseException: 403紫禁城

java、google-cloud-platform

在java中访问Google PubSub、Dataflow和BigQuery的Spring引导应用程序。该应用程序是使用复制到虚拟机实例的maven和jar文件构建的。在虚拟机中使用java -jar appname.jar运行时，会看到以下错误 2018-03-04 08:11:40.469 WARN 1005 --- [ main] o.a.b.s.u.RetryHttpRequestInitializer : Request failed with code 403, performed 0 retries due to IOExceptions,

浏览 0提问于2018-03-04得票数 0

回答已采纳

1回答

是什么导致我的数据流作业被取消？

google-cloud-dataflow、apache-beam

我的代码在一次运行中启动多个非常相似的数据流作业。一般来说，这很好，但在这种情况下，六个作业启动了OK，第七个工作失败了。是什么引起的？ java.lang.RuntimeException: Failed to create a workflow job: The operation was cancelled. at org.apache.beam.runners.dataflow.DataflowRunner.run(DataflowRunner.java:869) at org.apache.beam.runners.dataflow.DataflowRunner.run(Datafl

浏览 2提问于2019-06-20得票数 0

回答已采纳

1回答

使用Bazel (使用DataflowRunner)建造梁管道

google-cloud-dataflow、apache-beam、bazel

我用Bazel建造了我的束流管道。该管道在使用DirectRunner时运行良好，但是，当我使用DataflowRunner时，我在管理依赖关系方面遇到了一些困难，DataflowRunner无法在DataflowRunner中找到本地依赖项(例如py_library生成的依赖项)。有没有任何方法提示Dataflow使用工作者容器中的python文件(py_binray zip文件)来解决这个问题？谢谢,

浏览 3提问于2022-04-01得票数 1

3回答

运行数据流时发出

google-cloud-dataflow、apache-beam

在运行数据流作业时，我得到了以下错误。我正在尝试将我现有的beam版本更新为2.11.0，但是在运行时，我会出现以下错误。 org.apache.beam.model.pipeline.v1.RunnerApi$StandardPTransforms$Primitives类没有实现请求的接口com.google.protobuf.ProtocolMessageEnum在org.apache.beam.runners.core.construction.BeamUrns.getUrn(BeamUrns.java:27) at org.apache.beam.runners.core.const

浏览 0提问于2019-03-13得票数 4

2回答

使用TextIO和ValueProvider创建数据流模板时出错

java、google-cloud-dataflow、apache-beam、apache-beam-io

我正在尝试创建一个google数据流模板，但我似乎无法找到一种不产生以下异常的方法： WARNING: Size estimation of the source failed: RuntimeValueProvider{propertyName=inputFile, default=null} java.lang.IllegalStateException: Value only available at runtime, but accessed from a non-runtime context: RuntimeValueProvider{propertyName=inputFile,

浏览 0提问于2018-05-15得票数 5

1回答

ApacheBeam2.2 pipeline.apply没有这样的方法异常

google-cloud-dataflow、apache-beam

public static void main(String[] args) { //Pipeline p = Pipeline.create(PipelineOptionsFactory.fromArgs(args).withValidation().create()); DataflowPipelineOptions options = PipelineOptionsFactory.as(DataflowPipelineOptions.class); options.setRunner(DataflowRunn

浏览 4提问于2017-12-08得票数 0

回答已采纳

1回答

为什么Apache Beam中的CustomOptions没有继承DataflowPipelineOptions的默认属性？

google-cloud-dataflow、apache-beam、dataflow、apache-beam-io

我是个新手，正在尝试使用DirectRunner和DataflowRunner运行一个示例读写程序。在我的用例中，CLI很少，为了实现这一点，我创建了一个扩展PipelineOptions的接口"CustomOptions.java“。使用项目时，程序运行得很好，但使用DataflowRunner时，它会显示“接口CustomOptions缺少一个名为‘DirectRunner’的属性”。 pom.xml <dependencies> <dependency> <groupId>org.apache.maven.plugin

浏览 7提问于2019-11-26得票数 0

回答已采纳

1回答

从模板启动时，数据流作业不会从PubSub中消耗

google-cloud-dataflow、google-cloud-pubsub

我目前有一项工作，它将发布子主题的内容输出到云存储文件夹，如果我直接启动jar，这个文件夹就能正常工作。但是，每当我试图使用我上传的模板启动作业时，就不会有任何消息通过管道。它与非常相似，只是它接受订阅而不是主题。这是我的配置： trait Options extends PipelineOptions with StreamingOptions { @Description("The Cloud Pub/Sub subscription to read from") @Default.String("projects/project/subscripti

浏览 0提问于2018-10-19得票数 1

回答已采纳

1回答

使用数据流DirectRunner将文件转移到GCS

google-cloud-platform、google-cloud-storage、google-cloud-dataflow、direct-runner

因此，当使用DataflowRunner时，我们使用filesToStage方法将文件暂存到GCS，但是在DirectRunner中不会发生这种情况。有没有一种方法可以将DirectRunner阶段文件放到GCS中，并使用与DataflowRunner类似的文件，也许可以使用ClassLoader或其他方法？

浏览 2提问于2018-05-03得票数 0

1回答

Apache上带有数据流运行程序的MinimalWordcount示例

java、eclipse、google-cloud-dataflow、dataflow、apache-beam

我试图在windows上使用MinimalWordCount运行DataFlowRunner示例，使用MinimalWordCount -->，它与使用gcs的示例中的股票代码相同，但是我始终得到以下异常，有人能让我知道这里的问题吗？我已经证实桶名是正确的。我已经在我的Windows机器上运行了gcloud init。线程"main“中的异常:未能从org.apache.beam.sdk.util.InstanceBuilder.buildFromMethod(InstanceBuilder.java:233) at org.apache.beam.sdk

浏览 3提问于2017-03-26得票数 5

回答已采纳

2回答

无法使用ClassLoader检测类路径元素

java、google-cloud-dataflow

我猜这更像是一个普通的Java/Eclipse问题，但我不是Java人，这不是为我点击。最后的堆栈跟踪。上面是抛出错误的文件，它非常简单--我们是否使用URLClassLoader？作为一个Java的人，我不知道如何切换到URLClassLoader，谷歌这让我觉得这不是我需要关心的事情。 "Unable to use ClassLoader to detect classpath elements" 让我觉得我添加了一个类路径不正确，而且Eclipse正在做一些奇怪的事情。 Google /apache文档中没有提到任何关于URLClassLoader的内容，现在我甚至无

浏览 9提问于2018-01-17得票数 9

回答已采纳

1回答

运行mvn命令以部署数据流模板时出错

java、maven、google-cloud-platform、google-cloud-dataflow

嗨，我正在运行下面的代码来部署GCP中的数据流模板。 mvn compile exec:java \ -Dexec.mainClass=com.google.cloud.teleport.templates.TextIOToBigQuery \ -Dexec.cleanupDaemonThreads=false \ [-Dexec.args="--runner=DataflowRunner \ --project=$PROJECT_ID \ --stagingLocation=gs://bucket/stag

浏览 7提问于2022-04-27得票数 0

1回答

DataflowRunner“不能使用SlidingWindows将GlobalWindow转换为SlidingWindows，但DirectRunner有效吗？”

python、google-cloud-dataflow、apache-beam、dataflow

为什么Dataflow在连接两个流时会产生以下错误，其中一个流已被窗口加到滑动窗口中？ apache_beam.utils.windowed_value._IntervalWindowBase TypeError:不能在运行‘B/Map(_from_proto_str)-pTrans-24’时将GlobalWindow转换为GlobalWindow 我在下面创建了一个可重复的示例，它可以在DirectRunner上工作，但是在DataflowRunner上会产生错误。 pipeline_options = PipelineOptions(pipeline_args, streaming=Tr

浏览 5提问于2022-08-25得票数 1

回答已采纳

1回答

使用beam 2.0创建数据流模板管道时的身份验证错误

google-cloud-dataflow

请参阅有关如何运行基于Java的云数据流- 的链接。使用以下命令创建模板 mvn archetype:generate \ -DarchetypeGroupId=org.apache.beam \ -DarchetypeArtifactId=beam-sdks-java-maven-archetypes-examples \ -DarchetypeVersion=2.16.0 \ -DgroupId=org.example \ -DartifactId=word-count-beam \ -Dversion="0

浏览 2提问于2020-04-21得票数 0

回答已采纳

1回答

使用DataflowRunner实现Java束流保存文件LOCALY

java、google-cloud-dataflow、apache-beam

Can send the java code but currently, it's not necessary. 我有一个问题，因为当我运行作业时(DirectRunner -使用Google实例)，它工作正常，因为它将信息保存到本地文件并继续运行. 当尝试使用(DataflowRunner)和我收到的错误时，会出现问题： java.nio.file.NoSuchFileExtension: XXXX.csv ..... ..... XXXX.csv could not be delete. 它可以被删除，因为它甚至没有创建。问题--在运行DataflowRunner?？时如何在本

浏览 0提问于2019-05-15得票数 0

1回答

使用带有Apache梁的语句转换器模型

google-cloud-dataflow、apache-beam、huggingface-transformers、sentence-transformers

我有一个apache管道，使用DirectRunner、而不是与DataflowRunner一起完美地工作：在使用DataflowRunner时，我从我所理解的方面得到一个"Error 413 (Request entity too large)"，这是因为管道文件太大了。(我使用以下选项获得它：--dataflow_job_file=gs://...，这是由我使用的模型造成的： embeding_model = SentenceTransformer('sentence-transformers/paraphrase-MiniLM-L3-v2') 有没有人做

浏览 8提问于2022-09-26得票数 0

回答已采纳

1回答

ImportError:无法导入名称“firestore”

python-3.x、google-cloud-firestore、streaming、google-cloud-dataflow

我正在做一个数据流应用程序，它可以在firestore中编写，当我在DirectRunner上运行时它可以工作，但当我在DataflowRunner上运行时它不能工作。错误是什么？我的requirements.txt是： apache-beam[gcp,test]==2.19.0 google-cloud-pubsub google-cloud-firestore==0.29.0 抛出exeption的代码行是： from google.cloud import firestore db = firestore.Client(project=project)

浏览 0提问于2020-05-23得票数 0

1回答

PGPy不会在GCP数据流管道上运行

google-cloud-platform、google-cloud-dataflow、apache-beam、python-3.8

我试图在使用Apache实现的自定义GCP数据流管道中使用PGPy库。我得到的是，所有东西都与DirectRunner一起工作，但是当我部署作业并在DataflowRunner上执行它时，就会得到PGPy使用方面的一个错误： ModuleNotFoundError:没有名为pgpy的模块我想我错过了DataflowRunner的一些东西。谢谢

浏览 1提问于2021-01-04得票数 0

回答已采纳

3回答

Spring和Spring没有发现转换异常的转换器

spring-boot、spring-amqp、spring-remoting

我有几个教程通过RabbitMQ使用Spring和RPC。但是，只要我尝试添加Jackson JSON消息转换器，它就会崩溃。服务器成功地接收了远程调用，因此我非常确信这不是客户端配置。 Exchange DATAFLOW_EXCHANGE Routing Key dataflowRunner Redelivered ○ Properties reply_to: amq.rabbitmq.reply-to.g2dkABZyYWJiaXRAdXNoeWRnbmFkaXBhbHZ4AAAr0wAAAAAB.MmIZ6Htejtc1qB11G7BBQw== prior

浏览 13提问于2016-05-06得票数 0

回答已采纳

1回答

Apache波束流管道耗尽未退出

google-cloud-dataflow、apache-beam

我有一个使用DataflowRunner部署的apache streaming流水线。我的管道代码看起来像这样： with beam.Pipeline(options=pipeline_options) as p: (p | "Read input from PubSub" >> beam.io.ReadFromPubSub(subscription=known_args.subscription) # ... 然后，我像这样部署管道，python3 main.py --runner=DataflowRunner --streaming

浏览 3提问于2021-02-06得票数 0

1回答

如何将非模板梁作业转换为模板作业，并在GCP数据流流道上运行？

google-cloud-platform、google-cloud-dataflow、apache-beam

通过使用以下命令，我能够在GCP数据流流道上直接运行非模板梁作业： java -jar <jar_name> --runner=DataFlowRunner --gcpTempLocation=gs://some/gcs/location --stagingLocation=gs://some/gcs/location/stage --tempLocation=gs://some/gcs/location/temp --region=<region_name> --project=<project_name> --subnetwork=<

浏览 10提问于2022-09-19得票数 1

1回答

云数据流控制台仪表板中未列出云数据流作业

google-cloud-platform、google-cloud-dataflow、dataflow

我尝试使用下面的命令行参数来执行我的python数据流代码。 python upload_simple_csv.py --运行者DataflowRunner --项目bigquery--poc-188207 --save_main_session True --temp_location gs://resources-poc-atul/temp --num_workers 1 但同时，当我提交其他数据流任务时，它会被列出。例如: python spikey_top_selling_products.py --输入gs://resources-poc-atul/data/spikey_sale

浏览 1提问于2019-04-04得票数 0

1回答

Google :使用for解析时DirectRunner与DataFlowRunner的不同行为

argparse、google-cloud-dataflow

我正在建立一个谷歌云数据流管道来处理视频。我很难调试管道，因为在DirectRunner和DataflowRunner上环境行为似乎不同。我的视频处理工具(下面称为DeepMeerkat )接受from解析中的参数。我称之为管道： python run_clouddataflow.py \ --runner DataFlowRunner \ --project $PROJECT \ --staging_location $BUCKET/staging \ --temp_location $BUCKET/temp \ --job_name $PROJEC

浏览 8提问于2017-08-18得票数 2

回答已采纳

1回答

云DataFlowRunner中的python-mysql？

python、google-cloud-dataflow、mysql-python、apache-beam

我目前有一些查询mysql的代码。我想把这段代码作为DataFlowRunner中Apache光束管道的一部分来运行。每次我尝试集成MysqlDB时，作业都会挂起。在我添加MySQLDB依赖项之前，它可以很好地与DirectRunner配合工作。这是我的setup.py 我已经在可能导致DataFlowRunner挂起的行中添加了注释。我已经尝试过仅使用apt-get和pypi依赖项运行示例字数统计。预期的结果是能够添加MySQL dep，并且仍然能够运行单词计数示例。更新:查看README了解我最终做了什么。

浏览 33提问于2019-05-19得票数 0

4回答

数据流设置控制器服务帐户

google-cloud-platform、google-cloud-dataflow、dataflow、google-cloud-iam

我试图为数据流设置控制器服务帐户。在我的数据流选项中，我有： options.setGcpCredential(GoogleCredentials.fromStream( new FileInputStream("key.json")).createScoped(someArrays)); options.setServiceAccount("xxx@yyy.iam.gserviceaccount.com"); 但我得到了： WARNING: Request failed with code 403, perf

浏览 1提问于2018-12-12得票数 17

回答已采纳

2回答

什么是部署和管理用于Google云数据流的Python Beam管道执行的方便方法？

python、google-cloud-platform、google-cloud-dataflow、apache-beam

一旦使用Python和DataflowRunner在Google的云数据流中设计和测试了Apache管道，那么在Google中使用它并管理其执行是一种方便的方法吗？什么是部署和管理的Python Beam管道执行的方便方法？应该以某种方式包装吗？上传到谷歌存储库？创建数据流模板？如何从开发环境中将其执行安排在开发人员执行之外？更新最好没有第三方工具，或者在Google云和Dataflow之外的额外管理工具/基础设施方面的需求。

浏览 1提问于2019-01-27得票数 2

回答已采纳

1回答

多模块项目触发数据流管道错误:无法将url (jar:file:/home/java/app.war!/WEB-INF/classes!/)转换为文件

spring-boot、google-cloud-dataflow、apache-beam

使用spring引导war /swagger执行数据流管道时出错： Caused by: java.lang.IllegalArgumentException: Unable to convert url (jar:file:/home/java/app.war!/WEB-INF/classes!/) to file. at org.apache.beam.runners.core.construction.PipelineResources.detectClassPathResourcesToStage(PipelineResources.java:55) at org.apache.bea

浏览 0提问于2019-01-02得票数 0

回答已采纳

1回答

丢弃延迟消息的云数据流指标

google-cloud-dataflow

Apache光束是否会发出任何指标来衡量丢弃了多少(延迟)消息？无论是在DirectRunner上还是在DataflowRunner上。谢谢!

浏览 22提问于2019-03-22得票数 0

1回答

apache波束wordcount_minimal输出排序

python、apache-beam

我正在使用 (在python中)。我能够在DataflowRunner上运行这个示例并接收输出。输出文件当前如下所示： itself: 16 grey: 1 senses: 4 repair: 1 me: 228 是否存在对PCollection进行排序的方法，以便根据单词频率按降序排序输出文件？在没有办法做到这一点的情况下，标准的工作流是什么来查找最频繁出现的单词？在beam将数据减少到字计数之后，这会由一个单独的过程来处理吗？

浏览 0提问于2018-09-19得票数 5

回答已采纳

1回答

卡夫卡SASL_SSL认证错误，如何认证？

java、authentication、ssl、apache-kafka、apache-beam

我在Java中使用的管道可以使用Kafka集群中的数据，它可以在根据存储库，定义了props和pipeline： Map<String, Object> props = new HashMap<>(); props.put("auto.offset.reset", "earliest"); props.put("ssl.endpoint.identification.algorithm", "https"); props.put("

浏览 8提问于2022-03-30得票数 0

1回答

为什么DataflowRunner要将某种哈希值放入暂存的jars文件名中？

google-cloud-dataflow

当DataflowRunner启动时，它会将jars文件上传到暂存位置。为什么它会在jar名称的末尾生成哈希值呢？这个哈希是如何产生的呢？它是否支持更改内容的jar文件，如快照中的内容？ beam-sdks-java-harness-2.18.0.jar变成beam-sdks-java-harness-2.18.0-zSYSExFXVnBkN_8dj0glwg.jar 我更愿意保留原来的名字，因为这样我就可以使用gsutil -m cp ...来加速上传。或者，可以将多上传功能添加到现有机制中。此外，我在哪里可以提交DataflowRunner的问题或特性请求？目前，它不扩展文件全局(例如t

浏览 3提问于2020-03-08得票数 0

回答已采纳

1回答

DataflowPipelineOptions:在arg解析后使用.setRunner显式设置runner

google-cloud-dataflow、apache-beam

在dataflow SDK 2.4.0中，我曾经能够运行： PipelineOptionsFactory.register(MyPipelineOptions.class); MyPipelineOptions options = PipelineOptionsFactory.fromArgs(args).withValidation().create().as(MyPipelineOptions.class); options.setRunner(DataflowRunner.class); 但是，在Apache Beam SDK2.9.0中，我需要使用--runner=Datafl

浏览 10提问于2019-01-14得票数 0

回答已采纳

1回答

价值SingletonPCollectionView的未知生产者

google-cloud-dataflow、apache-beam

为了提供我的问题的最小示例，我尝试实现一个简单的Beam作业，它将String作为一个侧输入，并将它应用到从Cloud中的csv文件中读取的PCollection中。然后将结果输出到云存储中的.txt文件中。到目前为止，我已经尝试过:尝试使用PipelineResult.waitUntilFinish (如in (p.run().waitUntilFinish()) )，更改两个p.run()命令的位置，并尽可能地简化，只使用字符串作为我的侧输入，结果总是一样。在Stack和Google上的搜索使我找到了实现错误消息的梁回购上的PR。 SideInputTest.java： public c

浏览 1提问于2017-04-27得票数 0

回答已采纳

2回答

在GCP数据流上运行脚本

python、google-cloud-platform、google-cloud-dataflow、pipeline、apache-beam

我开始尝试Google，在经典的wordcount示例之后，我编写了自己的脚本： import argparse import sys import apache_beam as beam from apache_beam.io import ReadFromText from apache_beam.io import WriteToText from apache_beam.options.pipeline_options import PipelineOptions class Split(beam.DoFn): def process(self, element):

浏览 3提问于2020-02-25得票数 1

回答已采纳

1回答

GCP数据流自定义模板创建

python、google-cloud-platform、google-cloud-dataflow、apache-beam、google-cloud-composer

我试图在数据流中创建一个自定义模板，这样我就可以使用composer的DAG在设定的频率上运行。我知道我需要先部署我的数据流模板，然后再部署DAG。我使用了这个例子- 我的代码： - python3 -m job.process_file \ --runner DataflowRunner \ --project project \ --staging_location gs://bucketforjob/staging \ --temp_location gs://bucketforjob/temp \ --template_location gs://bucketfordata

浏览 2提问于2022-02-16得票数 0

1回答

运行WordcCount示例DataFlow运行器

google-cloud-dataflow、apache-beam、word-count

我会在DataFlow运行器上执行我的Wordcount项目，我使用beam文档中的命令，但我得到了这个错误： C:\BIGDATA_FORMATION\TP_WC_GCP\word-count-beam>mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount -Dexec.args="--runner=DataflowRunner --gcpTempLocation=gs://bucket_wc/tmp/ --project=WordCount --inputFile=gs://buc

浏览 16提问于2020-09-02得票数 0

2回答

数据流作业失败，因为它无法删除临时文件

java、google-cloud-dataflow、apache-beam

DirectRunner可以在没有问题的情况下完成工作，但由于无法删除，然后无法重命名临时文件，数据流始终失败。这是完全相同的代码，完全相同的桶，我只更改了运行程序： public static DataflowPipelineOptions setOptions() { List<String> experiments = new ArrayList<String>(); // experiments must be a MUTABLE list experiments.add("use_runner_v2"); DataflowPip

浏览 9提问于2021-12-14得票数 0

1回答

选项:模块“”apache_beam“”没有特性“AttributeError”

python、apache-beam、dataflow、google-dataflow

运行Apache光束管道时，我得到了以下错误。完整的错误代码为： --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-12-870f9c2f41e5> in <module> 39 file_path_prefix=os.path.join(OUTP

浏览 11提问于2021-03-12得票数 1

1回答

使用Eclipse在数据流上运行WordCount示例管道时出错

java、eclipse、google-cloud-dataflow

在Eclipse IDE中尝试使用Dataflow运行WordCount示例管道时，我得到以下错误： Exception in thread "main" java.lang.RuntimeException: Failed to construct instance from factory method DataflowRunner#fromOptions(interface org.apache.beam.sdk.options.PipelineOptions) at org.apache.beam.sdk.util.InstanceBuilder.buildFr

浏览 0提问于2018-04-06得票数 0

2回答

数据流错误：“客户端具有非平凡状态，即本地状态和不可选择状态”。

python、google-cloud-dataflow、pickle、apache-beam

我有一个管道，可以在本地执行，不会出现任何错误。我过去经常在本地运行的管道中得到这个错误。 'Clients have non-trivial state that is local and unpickleable.' PicklingError: Pickling client objects is explicitly not supported. 我相信我修正了这个问题，将其降级为apache=2.3.0，然后在本地运行得很好。现在我使用的是DataflowRunner，在requirements.txt文件中我有以下依赖项 apache-b

浏览 1提问于2018-05-30得票数 3

2回答

CheckpointMark最后确定的梁模型契约

java、apache-kafka、google-cloud-dataflow、apache-beam、apache-beam-io

我正在研究使用KafkaIO从Kafka读取消息的管道，我正在查看commitOffsetsInFinalize()选项和KafkaCheckpointMark类。我想实现至少一次的消息传递语义，并希望确保在向某个接收器写入卡夫卡之后的偏移量。从的接口来看，还不清楚何时会出现最终结果。在DataflowRunner上执行时，它是否依赖于运行程序？阅读KafkaIO.Read javadoc在上也没有给我的理解带来清晰，特别是短语但是它没有提供硬处理保证。问:当检查点标志最后确定时，梁模型中的合同是什么?有吗？

浏览 0提问于2019-03-25得票数 0

1回答

在使用DirectRunner时，Apache Beam GroupByKey从不触发

apache-beam

这个标题几乎总结了这一切。无论我设置的窗口宽度有多短，在DirectRunner上运行作业时，GroupByKey都不会触发。使用DataflowRunner时，一切都按预期运行。

浏览 1提问于2017-11-07得票数 2

1回答

Apache Beam/Google数据流Python流自动标度

python、google-cloud-dataflow、apache-beam

在Apache网站的链接之后，它声明如下(在页面底部)： DataflowRunner目前不支持具有的特定于云数据流的特性。流自动标度是否有某种路线图来指定何时支持这一点？

浏览 1提问于2018-10-09得票数 1

回答已采纳

2回答

DataFlow运行器升级到2.4.0后失败

google-cloud-dataflow

我有一个简单的数据流任务用于测试，并使用apache-beam2.1.0成功运行，代码类似于： public static void main(String[] args) throws Exception { DataflowPipelineOptions dataflowOptions = PipelineOptionsFactory.as(DataflowPipelineOptions.class); dataflowOptions.setProject("MY_PROJECT_ID"); dataflowOptions.setStagingLoc

浏览 0提问于2018-03-30得票数 0

1回答

只有在另一个管道在google数据流上完成后才执行管道。

python、google-cloud-dataflow、apache-beam

我想在google数据流上运行一个管道，它依赖于另一个管道的输出。现在，我只是在本地使用DirectRunner运行两个管道： with beam.Pipeline(options=pipeline_options) as p: (p | beam.io.ReadFromText(known_args.input) | SomeTransform() | beam.io.WriteToText('temp')) with beam.Pipeline(options=pipeline_options) as p: (p |

浏览 0提问于2018-03-09得票数 4

2回答

设置templateLocation参数时数据流作业运行失败

google-cloud-platform、google-cloud-dataflow

当我传递参数分段、临时和输出GCS存储桶位置时，数据流作业失败，出现以下异常。 Java代码： final String[] used = Arrays.copyOf(args, args.length + 1); used[used.length - 1] = "--project=OVERWRITTEN"; final T options = PipelineOptionsFactory.fromArgs(used).withValidation().as(clazz); options.setProject(PROJECT_ID); options.setStag

浏览 9提问于2018-05-10得票数 5