如何在Apache Beam中对早期触发进行单元测试(Python SDK)

google-cloud-dataflow、apache-beam

使用下面的窗口函数， Window.<KV<String, Long>>into(FixedWindows.of(Duration.standardDays(1))) .triggering( AfterWatermark.pastEndOfWindow() .withEarlyFirings(AfterProcessingTime.pastFirstElementInPane() .plusDelayOf(Duration.s

浏览 0提问于2020-05-07得票数 1

1回答

Beam中的嵌套查询

google-cloud-dataflow、apache-beam

是否可以在Beam中应用嵌套查询？我试图在Beam中运行这样的查询，但得到了错误。我正在运行的查询是： PCollection<BeamRecord> Query_Output = Query.apply( BeamSql.queryMulti("Select Orders.OrderID From Orders Where Orders.CustomerID IN (Select Customers.CustomerID From Customers WHERE Customers.CustomerID = 2)")); 我得到的错误是：

浏览 1提问于2018-01-19得票数 0

回答已采纳

2回答

如何修复Apache Beam中的“连接无界PCollections当前仅支持非全局窗口和触发器”

java、join、streaming、apache-beam、beam-sql

我正在尝试使用连接两个无界源。当我加入的时候，我会收到以下错误信息。线程"main“java.lang.UnsupportedOperationException中的异常:当前只支持非全局窗口使用已知每个窗口生成一次输出的触发器加入无界PCollections，例如默认触发器，允许延迟为零。在这种情况下，可保证每个窗口连接所有输入元素一次。( WindowingStrategy{windowFn=org.apache.beam.sdk.transforms.windowing.SlidingWindows@1b87117，allowedLateness=PT0S，trigger=R

浏览 0提问于2019-07-08得票数 1

回答已采纳

2回答

如何在Python中创建从发布/订阅到GCS的数据流管道

python、google-cloud-dataflow、apache-beam、google-cloud-pubsub

我想使用Dataflow将数据从发布/订阅移动到GCS。因此，基本上我希望Dataflow在固定的时间内(例如15分钟)积累一些消息，然后在该时间段过去后将这些数据作为文本文件写入GCS。我的最终目标是创建一个自定义的管道，所以“发布/订阅到云存储”模板对我来说是不够的，而且我对Java一无所知，这让我开始在Python中进行调整。这是我目前所得到的(Apache Beam Python SDK 2.10.0)： import apache_beam as beam TOPIC_PATH="projects/<my-project>/topics/<my-to

浏览 6提问于2019-02-18得票数 7

回答已采纳

2回答

：ReadFromKafka不能使用数据(错误)？

apache-kafka、apache-beam

运行env： 2.12-2.0.1apach-beam OS:Ubuntu20.04kafka版本：库版本：apache-beam==2.32.0 操作步骤： shell 1：在代码下面运行 import apache_beam as beam from apache_beam.options.pipeline_options import PipelineOptions from apache_beam.io.external.kafka import ReadFromKafka pipeline_options = PipelineOptions(["--runner=Direc

浏览 5提问于2021-09-01得票数 1

1回答

Apache Beam中的后水印触发器和默认触发器有什么区别？

google-cloud-platform、triggers、google-cloud-dataflow、apache-beam

根据Apache Beam文档 -- AfterWatermark触发器在事件时操作。AfterWatermark触发器根据附加到数据元素的时间戳，在水印通过窗口结束后发出窗口的内容。水印是一个全局进度度量，是Beam在任意给定点的管道内输入完整性的概念。只有当水印通过窗口结束时，AfterWatermark才会触发。 PCollection的默认触发器是基于事件时间的，当波束的水印通过窗口的末端时，会发出窗口的结果，然后每次延迟数据到达时都会触发。但是，如果同时使用默认窗口配置和默认触发器，则默认触发器只发出一次，而延迟数据将被丢弃。我试图实现这两种方法，并使用固定窗口获得了类似的输出

浏览 2提问于2019-09-20得票数 1

回答已采纳

1回答

窗口和GroupByKey

apache-beam、apache-beam-io

LE: TL;DR；如何在Python中创建无界数据源？有可能吗？我正在构建一个流数据流，它将继续处理来自具有时间戳、id和读取值的传感器的浮点值，将值放在FixedWindows中2秒，然后输出一个聚合。代码链接：这是快速vis的管道： files = [ "in.csv", ] fields = (p | beam.Create(files).with_output_types(str) | beam.ParDo(FileReader()) | "Pars

浏览 1提问于2020-03-12得票数 2

1回答

使用Dataflow Runner运行时Beam Sql失败

google-cloud-platform、google-cloud-dataflow、apache-beam

在测试Beam时，我使用了Github的模型类示例，运行本地机器( POJo on Local，DirectRunner)的示例运行良好，但在使用DataflowRunner运行时异常失败。例外： java.lang.IllegalArgumentException: Unable to encode element 'com.test.Customer1@523377ea' with coder 'org.apache.beam.sdk.schemas.SchemaCoder@2574fe3c'. at org.apache.beam.sdk.cod

浏览 1提问于2018-08-13得票数 1

回答已采纳

1回答

带有延迟元素的Apache

apache-beam

我正在尝试使用TestStream来进行实验，看看如何处理延迟的元素，但是得到了一些非常有趣和令人困惑的行为。具体来说，我在窗口中添加了一个带有时间戳的元素"2“(windowTwo)，然后将水印移到窗口结束后但在endOfWindow +延迟之前，最后在窗口中添加另一个带有时间戳的元素"3”。有趣和令人困惑的事情是:我期望看到windowTwo中所有元素之和为5，但是它失败了，并说预期:可在<5>上按任何顺序迭代，但: Not：<2> 但是，如果我将预期的和从2改为5，它仍然失败，并说预期:可在<2>上按任何顺序迭代，但:

浏览 3提问于2017-09-14得票数 2

1回答

第(1)步中正在进行的操作:匹配文件/通过MatchAll/匹配文件类型至少05m00s，而不输出或完成处理状态

java、google-cloud-dataflow、apache-beam

我有一个数据流管道，它读取大量文件(至少500万个文档)，并尝试将其存储在数据库中。我有以下的流水线执行： StorageToXrOptions options = PipelineOptionsFactory.fromArgs(args) .withValidation() .as(StorageToXOptions.class); Pipeline p = Pipeline.create(options); PCollection<KV<String, String>> docs = p .apply("(1) Match

浏览 2提问于2021-03-19得票数 0

1回答

Python束- Flink运行程序设置: ReadFromKafka返回错误- RuntimeError:无法编码空byte[]

python、apache-kafka、apache-flink、apache-beam

我试图在python中构建一个流束管道，它应该从kafka捕获消息，然后执行从其他源获取数据和聚合的进一步阶段。到目前为止，我逐步建立的过程是：在本地主机上运行Kafka实例的：9092 ./bin/kafka-server-start.sh ./config/server.properties 运行波束-使用码头的flink作业服务器 docker run --net=host apache/beam_flink1.10_job_server:latest 运行梁-卡夫卡管道 import apache_beam as beam from apache_beam.io.external.k

浏览 3提问于2020-07-14得票数 3

1回答

Beam DirectRunner方解石无法指定名称

apache-beam、apache-beam-internals

我正在运行这个beam tutorial的简化版本，但是在我的本地机器上使用DirectRunner运行它。 import apache_beam as beam from apache_beam.transforms.sql import SqlTransform import os with beam.Pipeline() as p: rows = (p | beam.Create([ beam.Row(col1="val1", col2="col2_val1"),

浏览 29提问于2021-09-01得票数 0

回答已采纳

1回答

ClassNotFoundException同时使用apache的jdbcio连接器

python、mysql、jdbc、apache-beam、apache-beam-io

我正在尝试使用apache中可用的jdbcio连接器从mysql读取一些数据。由于我想使用默认的扩展服务，按照文档：，我安装了Java并确保java命令是available.And，然后我尝试运行以下代码。我使用的是Python版本3.9.6和apache版本2.35.0 from apache_beam.io.jdbc import ReadFromJdbc import apache_beam as beam with beam.Pipeline() as p: result = ( p | 'Read from jdbc' >>

浏览 24提问于2022-01-27得票数 0

1回答

DataflowRunner以“未找到文件到阶段”退出。

google-cloud-dataflow

我想从WordCount上运行 java示例，但是不知怎么地，我得到了一个错误，ClasspathScanningResourcesDetector没有找到任何要处理的文件。我运行的示例与网站上描述的完全相同： mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount \ -Dexec.args="--runner=DataflowRunner --project=<your-gcp-project> \ --gcpTempLocatio

浏览 3提问于2020-03-08得票数 2

回答已采纳

1回答

Beam.BigQueryIO: numFileShards是干什么用的？

google-cloud-dataflow、apache-beam

当我想将我的未绑定输入从Kafka加载到BigQuery时，我遇到了.withMethod()选项。通过使用Method.FILE_LOAD，我还必须指定触发频率以及非零numFileShards。我的问题是文件碎片的数量控制多少？它是用来做什么的？在我的观察中，它绝对不是在我的GCS临时位置生成的临时文件，对我来说是可见的。但是我想知道我应该在这里选择几个数字？根据我引用的源代码，默认值应该是1000，但实际上是0，所以当我没有显式地设置它时，我得到了一个异常，当我将它设置为1时，异常消失了，但是我还是不知道它是什么，我正在设置什么，lol。 /**Control使用

浏览 1提问于2018-09-10得票数 2

回答已采纳

1回答

python、apache-beam

我想为具有早期触发的流水线创建一个单元测试。示例管道如下所示： class CalculateTeamScores(beam.PTransform): def expand(self, scores): return scores \ | "windowing scores" >> beam.WindowInto( beam.window.FixedWindows(120), trigger=AfterWatermark(early=AfterCount(

浏览 20提问于2020-07-22得票数 4

1回答

在Kubernetes中运行Apache梁python管道

python、kubernetes、apache-flink、apache-beam

这个问题似乎是的翻版。我试图在Kubernetes的脱机实例上使用flink运行管道。但是，由于我有带有外部依赖项的用户代码，所以我使用Python工具作为外部服务--这会导致错误(如下所述)。我用来启动beam的kubernetes清单： apiVersion: apps/v1 kind: Deployment metadata: name: beam-sdk spec: replicas: 1 selector: matchLabels: app: beam component: python-beam-sdk template:

浏览 1提问于2020-02-26得票数 7

回答已采纳

1回答

如何在getKey中使用CombineFn

java、apache-beam

我有以下代码： PCollection<KV<String, Cell>> first = ...; PCollection<String> lines = first .apply("Build lines", Combine.<String, Cell, String>perKey(new MergeCellsFn())) ; Cell看起来像这样： public class Cell { public final int index; public final String value; publ

浏览 0提问于2020-08-22得票数 0

2回答

使用Python处理Apache光束管道中的异常

python、google-cloud-dataflow、apache-beam、dataflow

我用python (在GCP Dataflow上)做了一个简单的管道，用来读PubSub和写大查询，但不能处理管道上的异常来创建替代流。在一个简单的WriteToBigQuery示例中： output = json_output | 'Write to BigQuery' >> beam.io.WriteToBigQuery('some-project:dataset.table_name') 我试图将其放入try/except代码中，但它不起作用，因为当它失败时，异常似乎被抛出到我的python执行之外的Java层： INFO:root:201

浏览 14提问于2019-01-30得票数 5

回答已采纳

1回答

pip搜索显示apache-beam 2.9，但是pip安装apache-beam只安装apache-beam2.2

pip、apache-beam

在我新的虚拟环境里。我跑 pip search apache-beam 我得到了 apache-beam (2.9.0) 然后我跑了 pip install apache-beam pip list 但是我安装了apache-beam2.2，而不是2.9 apache-beam 2.2.0 然后我跑 python -m apache_beam.examples.wordcount --output cout 我得到了错误 The Apache Beam SDK for Python is supported only on Python 2.7. 从这份文件 beam 2.9将

浏览 0提问于2019-01-27得票数 0

回答已采纳

2回答

从束流管道中写入from记录？

java、tensorflow、apache-beam、tfrecord

我有一些地图格式的数据，我想使用波束管道将它们转换为tfrecords。下面是我编写代码的尝试。我已经在python中尝试了这一点，但是我需要在java中实现它，因为有一些业务逻辑是我无法移植到python的。在这个中可以找到相应的工作python实现。 import com.google.protobuf.ByteString; import org.apache.beam.sdk.Pipeline; import org.apache.beam.sdk.extensions.protobuf.ProtoCoder; import org.apache.beam.sdk.io.TFRecor

浏览 8提问于2020-04-17得票数 0

回答已采纳

1回答

简单的Apache波束操作工作非常慢

java、maven、apache-beam、apache-beam-io

我对Apache非常陌生，我的Java技能也很低，但我想了解为什么我的简单条目操作在Apache中工作这么慢。我试图执行以下操作:我有一个CSV文件，其中包含以下方案的100万条记录(Alexa顶级100万站点)：NUMBER,DOMAIN (例如，1,google.com)，我想“剥离”第一个(number)字段，只获取域部分。此管道的代码如下： package misc.examples; import org.apache.beam.sdk.Pipeline; import org.apache.beam.sdk.io.TextIO; import org.apache.beam.s

浏览 1提问于2017-06-24得票数 3

回答已采纳

1回答

如何为数据流安装python依赖项

python、google-cloud-dataflow、apache-beam、requirements.txt

我有一个非常小的python数据流包，包的结构如下所示 . ├── __pycache__ ├── pubsubtobigq.py ├── requirements.txt └── venv requirements.txt的含量是 protobuf==3.11.2 protobuf3-to-dict==0.1.5 我用这个代码运行了我的对线 python -m pubsubtobigq \ --input_topic "projects/project_name/topics/topic_name" \ --job_name "job_name" \

浏览 2提问于2020-01-30得票数 0

2回答

发出写入bigquery中多个表的数据流

google-bigquery、pipeline、dataflow

我使用来自的代码并将其改为： def getFullTableName(pn,tn): return "{0}:{1}".format(pn,tn) ... ( pipeline | "Read Data From Input Topic" >> beam.io.ReadFromPubSub(topic=data_topic) | "Get Table data from input row" >> beam.Map(lambda r : data_ingestion.getData(r

浏览 12提问于2022-01-05得票数 0

1回答

DataFlow流进程卡住

python-2.7、google-cloud-dataflow、apache-beam

运行Apache后，我成功地运行了12天(11月5-17日)的流管道，然后DataFlow作业停止了数据处理。我在接触AI平台预测时看到了SSL错误，DataFlow显示： Processing stuck in step <step_id> for at least <time_interval> without outputting or completing in state finish at <stack_trace> 通过处理SSL异常就足够了吗?在DataFlow中防止这种死锁的最佳方法是什么。相关文章版本 Streaming Job Py

浏览 1提问于2019-12-07得票数 0

1回答

用Python中的SqlTransform本地测试Apache。我收到一个错误：“‘[%s]的执行没有在runner %s中实现。’”

python、sql、sdk、apache-beam、transformation

在本地Apache实例上使用SqlTransform时，我会收到一个错误。下面是一个简单的测试： with beam.Pipeline() as p: pc = (p | beam.Create([ FruitRecipe("pie", "strawberry", 3, 1.5), FruitRecipe("muffin", "blueberry", 2, 2.), ]) | beam.Map(lambda x: beam.Row(recipe = x[0],

浏览 9提问于2021-01-26得票数 0

1回答

Apache Beam Python SDK版本上的Wait.On()

python、google-cloud-dataflow、apache-beam

我正在Python上使用Apache Beam，我想问一下在python SDK上的Apache Beam Java Wait.on()是什么等价物？目前我在下面的代码片段中遇到了问题 if len(output_pcoll) > 1: merged = (tuple(output_pcoll) | 'MergePCollections1' >> beam.Flatten()) else: merged = output_pcoll[0] outlier_side_

浏览 22提问于2019-11-09得票数 4

回答已采纳

1回答

无法在单独的Flink集群上运行Apache。官方指示不起作用

apache-flink、apache-beam

我想在macOS上做这件事。我试图在一个单独的Flink集群上运行Apache，如下所述： (1)启动一个Flink集群，该集群公开Rest接口(例如，默认情况下，重新定位主机:8081)。 Flink 1.13.1在本地主机8081上成功启动。 (2)用Flink Rest端点启动JobService :Restdocker run --net=host apache/beam_flink1.10_job_server:latest --flink-master=localhost:8081。我正在运行它，它再次成功地启动： docker run --net=host apach

浏览 1提问于2021-07-26得票数 0

1回答

用于com.google.common.base.Preconditions.checkState的NoSuchMethodError

google-cloud-dataflow、google-cloud-pubsub、apache-beam

我正在使用Apache beam和Cloud Dataflow Runner，当我尝试运行我的管道时，得到了以下异常： java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkState(ZLjava/lang/String;Ljava/lang/Object;)V at org.apache.beam.sdk.io.gcp.pubsub.PubsubClient$TopicPath.getV1Beta1Path(PubsubClient.java:264) at org.apache.beam.runner

浏览 57提问于2017-05-23得票数 4

回答已采纳

1回答

带gcp云函数的apache光束

google-cloud-platform、google-cloud-functions、apache-beam、apache-beam-io

尝试在GCP云函数中创建GCP数据流。我已经部署了一个简单的apache函数，它工作得很好，但是当我试图读取文件时会出现路径错误。当我使用参数-runner从本地运行时，与Dataflowrunner一样，相同的脚本运行，有人建议我必须执行pip安装apache-beamgcp。我已经在当地做过了，而且效果很好。如果我试图在GCP中安装它，它会在一段时间后进行会话超时。下面是我的密码。 #import print library # This script will read all avro files on a path and print them import logging imp

浏览 11提问于2022-08-04得票数 1

回答已采纳

1回答

使用抽象字段创建自定义实体/模型的PCollection

java、google-cloud-platform、google-cloud-dataflow、apache-beam、apache-beam-io

我有一个用例，其中我们需要创建包含抽象数据类型的字段的PCollection。在这种情况下如何定义模式和编码器。此数据是从某些数据源(local/S3等)中存在的json文件中提取的。对于ex： PCollection<Customer>, where Customer is defined as Customer { Gender gender; } interface Gender { } Female implmements Gender { } 在流水线中，对于客户将模式设置为：

浏览 0提问于2021-05-12得票数 1

1回答

数据流模板"Pub/Sub Avro to Bigquery“解码失败

google-cloud-dataflow、avro、google-cloud-pubsub、dataflow、confluent-schema-registry

我正在尝试通过数据流模板"Pub/Sub Avro to Bigquery“将数据从Pub/Sub流式传输到Bigquery。Pub/Sub中的数据是AVRO格式的，来自Kafka主题。我从模式注册表中获得的相应模式文件。它看起来是这样的： {"type":"record","name":"KsqlDataSourceSchema","namespace":"io.confluent.ksql.avro_schemas","fields":[{"name":

浏览 32提问于2021-01-22得票数 0

1回答

在Dataflow中使用Apache将数据从Google PubSub写入GCS时出错

python、google-cloud-platform、apache-beam、publish-subscribe、dataflow

我编写了下面的代码来编写来自pub sub的流数据，并将其写入google云存储中。 def run(): argv = [ '--project={0}'.format(PROJECT), '--job_name=mypubsubsample40', # '--save_main_session', '--staging_location=gs://abc/staging/', '--temp_location=gs://abc/staging/', '--runner=Dat

浏览 0提问于2018-07-23得票数 1

1回答

FileBasedSource无法理解与Google中的几个特定文件对应的glob

java、scala、google-cloud-storage、google-cloud-dataflow、apache-beam

我需要处理存储在中的定制二进制文件。为此，我编写了一个自定义。如文档所述，它由定义为Java glob、单个文件或单个文件的偏移范围的文件模式支持。在我的例子中，我需要使用带有几个特定文件名的Java，比如这个/path/{file1,file1,file3}。当我在本地文件系统上测试它时，它可以正常工作，但是如果我将它与Google (gs://bucket/{file1,file2,file3})一起使用，它将无法找到任何文件，并得到以下堆栈跟踪： java.io.IOException: Error executing batch GCS request at org

浏览 5提问于2017-10-27得票数 2

1回答

谷歌云数据流-来自PubSub消息的Pyarrow架构

python、google-cloud-dataflow、apache-beam、google-cloud-pubsub、pyarrow

我正在尝试使用Google Cloud Dataflow (Python SDK)将Google PubSub消息写入Google Cloud Storage。消息以json格式进入PubSub，我必须定义一个模式，以便将它们写入Google Cloud Storage中的parquet格式。根据其他用户的建议，我从特别研究和源代码开始着手这项任务。第一个不是我想要做的，因为它将更改应用到json文件(它通过一个窗口合并它们，将原始的json放入一个字段"message“中，并添加一个表示发布时间的时间戳)。第二个源代码(源代码)更适合这个用例。具体地说，模式是从BigQuery

浏览 3提问于2020-07-23得票数 0

1回答

不能将SerializableCoder转换为BeamRecordCoder

java、google-cloud-dataflow、apache-beam

我使用beam从包含json对象的文件中准备了一个Pcollection<BeamRecord>对象。下面的代码解析并将json行映射到ChatHistory对象，然后将映射的对象转换为BeamRecord。最后，我尝试在返回的BeamSql上使用PCollection<BeamRecord>，但是我得到了异常，不能将SerializableCoder转换为BeamRecordCoder。 PCollection<ChatHistory> json_objects = lines.apply(ParDo.of(new ExtractObjectsFn())

浏览 1提问于2018-02-26得票数 1

回答已采纳

1回答

不同的抛出错误(llegalStateException: GroupByKey的keyCoder必须是确定性的)

google-cloud-dataflow、apache-beam

使用“数据流作业”从bigQuery表读取数据时，要尽量避免集合中的重复。对于这一点，使用beam.sdk.transforms.Distinct来读取带有distinct的记录。但却在错误之下 java.lang.IllegalStateException: the keyCoder of a GroupByKey must be deterministic at org.apache.beam.sdk.transforms.GroupByKey.expand(GroupByKey.java:193) at org.apache.beam.sdk.transforms.Gro

浏览 7提问于2019-03-20得票数 0

1回答

注册编码器在数据流上不工作。

java、google-cloud-dataflow、apache-beam

使用Apache，注册的编码器不能工作。我想在BigQuery的SimpleFunction中使用TableSchema，但是它需要序列化。我将TableSchemaCoder添加到CodeRegistry中，但它似乎没有被使用。我该怎么解决呢？ // Coder import com.google.api.services.bigquery.model.TableFieldSchema; import com.google.api.services.bigquery.model.TableSchema; import org.apache.beam.sdk.coders.AtomicC

浏览 8提问于2017-10-25得票数 1

回答已采纳

2回答

Apache :升级到2.5.0后的异常

google-cloud-dataflow、apache-beam、google-api-client

Java版本:8 Runner:数据流在我升级到beam 2.5.0之前一切正常。例外： Exception in thread "main" java.lang.RuntimeException: Failed to construct instance from factory method DataflowRunner#fromOptions(interface org.apache.beam.sdk.options.PipelineOptions) at org.apache.beam.sdk.util.InstanceBuilder.buildFromMet

浏览 1提问于2018-07-24得票数 0

1回答

Google上的Apache与消息“不期望一个可拆分的ParDoSingle:应该是过脊的”

google-cloud-dataflow、apache-beam

我正在尝试编写一个管道，它定期检查GoogleStorage桶中的新.gz文件，这些文件实际上是压缩的.csv文件。然后将这些记录写入BigQuery表。在添加.watchForNewFiles(...)和.withMethod(STREAMING_INSERTS)部件之前，以下代码在批处理模式下工作。我期望它在流模式下运行这些更改。然而，我得到了一个例外，我找不到任何相关的网页。这是我的代码： public static void main(String[] args) { DataflowDfpOptions options = PipelineOptionsFac

浏览 0提问于2018-07-19得票数 2

回答已采纳

1回答

如何从Beam (SqlTransform)输出嵌套行？

apache-beam、beam-sql

我希望有来自Beam (SqlTransform)输出的嵌套行，但是失败了。问题：从SqlTransform中用嵌套行输出行的正确方法是什么？(行类型是用描述的，所以我相信它是受支持的) 如果这是一个缺陷/缺失的功能，问题是梁本身？还是依靠跑步？(我目前在DirectRunner上使用，但将来将使用DataflowRunner。) 版本信息：操作系统: macOS 10.15.7 (Catalina) Java: 11.0.11 (AdoptOpenJDK) Beam SDK: 2.32.0 这是我试过的，没有运气。方解石方言 SELECT ROW(

浏览 5提问于2021-09-18得票数 0

回答已采纳

1回答

[gcp，test]‘- RuntimeError:不在Apache git树中；无法找到proto定义

python-2.7、sdk、apache-beam

我正在尝试遵循Apache贡献指南使用Python 2.7.15步骤： git克隆git@github.com:apache/beam.git 创建一个新的虚拟env (--无侧包) pip安装cython 在这个sdk/python目录上运行pip install '.[gcp,test]' 产出： pip install '.[gcp,test]' Processing /Users/jcc/beam/sdks/python Complete output from command python setup.py

浏览 0提问于2018-08-07得票数 0

回答已采纳

2回答

Apache :没有指定运行程序，而且在类路径上也没有找到DirectRunner

java、apache-beam

我正在使用Apache代码构建一个gradle java项目(请参阅下面)，并在Eclipse上执行。 package com.xxxx.beam; import java.io.IOException; import org.apache.beam.runners.spark.SparkContextOptions; import org.apache.beam.runners.spark.SparkPipelineResult; import org.apache.beam.sdk.Pipeline; import org.apache.beam.sdk.PipelineRunner;

浏览 1提问于2018-05-21得票数 2

回答已采纳

1回答

在数据流上运行Apache光束管道会引发错误(DirectRunner运行时没有问题)

python、google-cloud-dataflow、apache-beam

正常运行的管道在使用数据流时会触发错误。所以我尝试了一个简单的管道，得到了同样的错误。相同的管道将在DirectRunner上运行，没有任何问题。执行环境是Google-datalab。如果我的环境中有任何需要更改/更新的地方或任何其他建议，请让我知道。非常感谢，e import apache_beam as beam options = PipelineOptions() google_cloud_options = options.view_as(GoogleCloudOptions) google_cloud_options.project = 'PROJECT-ID

浏览 0提问于2018-08-22得票数 4

2回答

apache光束中使用SpannerIO的错误

java、google-cloud-dataflow、apache-beam、google-cloud-spanner

这个问题是的后续问题.我正在尝试使用apache从google扳手表中读取数据(然后进行一些数据处理)。我使用java编写了以下最小示例： package com.google.cloud.dataflow.examples; import java.io.IOException; import org.apache.beam.sdk.Pipeline; import org.apache.beam.sdk.PipelineResult; import org.apache.beam.sdk.io.gcp.spanner.SpannerIO; import org.apache.beam.sd

浏览 6提问于2017-10-11得票数 4

1回答

将MutationGroups流入扳手

google-cloud-platform、google-cloud-dataflow、apache-beam、google-cloud-spanner、apache-beam-io

我正试图把MutationGroups变成SpannerIO的扳手。我们的目标是每10秒编写一次新的MuationGroups，因为我们将使用扳手来查询接近时间的KPI。当我不使用任何窗口时，我会得到以下错误： Exception in thread "main" java.lang.IllegalStateException: GroupByKey cannot be applied to non-bounded PCollection in the GlobalWindow without a trigger. Use a Window.into or Window.tr

浏览 1提问于2018-07-23得票数 4

1回答

分阶段beam sdk与“预建工作流.”意料之中？

google-cloud-dataflow、apache-beam

我在python3.8和beam2.41.0rc1上运行了以下束管道： argv = [ "--runner", "DataflowRunner", "--experiments=use_runner_v2", "--sdk_container_image=us.gcr.io/some_beam_image_based_on_2.41.0rc1", ] 光束图像是根据bazel对接规则构建的：在WORKSPACE中 # https://hub.docker.com/

浏览 3提问于2022-08-16得票数 0

回答已采纳

1回答

NoClassDefFoundError: com/google/api/gax/grpc/GrpcStatusCode

java、spring、maven、google-cloud-platform

使用Google平台服务开发maven春季引导应用程序，其中包括BigQuery、PubSub和Dataflow/Beam。我通过maven添加了以下依赖项： <dependency> <groupId>org.springframework.cloud</groupId> <artifactId>spring-cloud-gcp-starter-pubsub</artifactId> </dependency> <dependency>

浏览 0提问于2018-01-31得票数 1

回答已采纳

1回答

从卡夫卡读取的Apache光束给出了CoderException: java.io.EOFException

apache-kafka、google-cloud-dataflow、apache-beam

我已经实现了一个来自Kafka的光束管道读取，基于这里的文档：管道本身对于有界源工作得很好，并且我有测试用例，它可以从文件中读取数据而不会出现问题。从Kafka中读取代码非常简单，与示例基本相同： PCollection<String> input = p.apply(KafkaIO.<Long, String>read() .withBootstrapServers(KAFKA_BROKER) .w

浏览 1提问于2017-04-04得票数 3

1回答

使用sdk_container_image apache/beam_python3.9_sdk的数据流错误:2.40.0

python、google-cloud-dataflow、apache-beam

我花了一段时间试图将一个定制容器部署到(在python中)。最后，我将我的bug限定为这个最小的示例： python -m apache_beam.examples.wordcount \ --output gs://<your-ouput-dir> \ --runner=DataflowRunner \ --project=<your-project-id> \ --region us-central1 \ --temp_location=gs://<your-tmp-location> \ --worker_harness_container_image

浏览 5提问于2022-08-19得票数 1

回答已采纳