用于分支管道的Apache Beam python代码

、

我使用Dataflow加载CSV文件，其中依赖于第一个列值的每条记录都需要写入特定的bigquery表。简单解释如下:输入文件- 1,X1,Y13,X3,Y3 代码逻辑- If col1 = 1 then write into table1 If col2 = 2 then write出于这个原因，我浏览了Apache Beam文档https://beam.apache.org/documentation/pip

浏览 29提问于2020-04-24得票数 1

1回答

错误从发布/订阅流到大型查询python

、、、、

我很难创建一个将发布/子源连接到大型查询接收器的dataflowRunner作业，方法是插入以下两个：apache_beam.io.gcp.bigquery.BigQuerySink在github上的beam/sdks/python/apache_beam/examples/st

浏览 0提问于2017-06-29得票数 0

回答已采纳

1回答

流事件到大查询-数据流-向时间戳列插入纪元时间戳 (int)的最佳方法

、、、、

我试图使用dataflow apache (python)将流中的事件写入大查询表中，而时间戳格式存在问题。我有一个带有历元时间戳 (int)值的事件(json)，我希望将这些值插入具有时间戳列的大型查询表中。做这件事最好的方法是什么？我可以在不解析每个事件的情况下这样做吗？我可以声明收到的时间戳的格式吗？

浏览 1提问于2021-09-22得票数 1

1回答

Dataflow中的自定义Apache Beam Python版本

、、

我想知道是否有可能有一个自定义的阿帕奇光束Python版本运行在谷歌数据流。在公共存储库中不可用的版本(在撰写本文时: 0.6.0和2.0.0)。例如，来自Apache Beam官方存储库的HEAD版本，或与此相关的特定标签。但我还没有设法得到当前<em

浏览 16提问于2017-07-27得票数 4

回答已采纳

2回答

如何使用火花转轮运行云数据流管道？

、、、

我读过管道，它基于Apache，可以与Spark或Flink一起运行。谢谢。

浏览 0提问于2018-06-20得票数 0

回答已采纳

4回答

如何修复‘属性错误:模块'apache_beam.coders.coders’没有属性‘VarIntCoder’‘

、

我正在构建Apache管道，但是在尝试导入管道选项时，我遇到了一个AttributeError。virtualenv -p python3.6 beam-envpip install apache_beam==2.12.0 python3.6

浏览 1提问于2019-05-20得票数 3

回答已采纳

2回答

如何使用在同一管道中读取BigQuery和文件系统中的数据？

、、

我正在尝试使用下面的代码读取Bigquery中的一些数据和文件系统中的一些数据。/pipeline.py"，行939，在访问part.visit(访问者，管道，访问)文件"/etl/dataflow/venv3/lib/python3.7/site-packages/apache_beam/pipeline.py"，行939，在访问part.visit

浏览 4提问于2020-03-01得票数 1

1回答

是否需要使用with语句声明apache_beam管道？

、、、

我开始学习apache beam，在尝试构建我的第一个管道(用python)时，我遇到了一个奇怪的行为。以下是我的代码中的元素：一个文件：count_words.txt，其中包含： ?Potato 代码的一个有效版本：wordcount_exercise.py import apache_beam as beam from apach

浏览 22提问于2021-08-09得票数 1

回答已采纳

2回答

google-cloud-dataflow vs apache-apache

、

令人困惑的是，每个关于数据流的谷歌文档都说它现在是基于Apache光束的，并将我引导到光束网站。此外，如果我查找github项目，我会发现google dataflow项目是空的，并且所有的项目都转到apache see repo。假设我现在需要创建一个管道，根据我从Apache光束中读到的，我会这样做：from apache_beam.options.pipeline_options然而，如果我使

浏览 1提问于2017-06-16得票数 3

1回答

用Python2.7和Apache* Beam构建云*

、、

我在Python2.7上创建了一个管道，它运行在上。当我从我的笔记本电脑在本地部署它时，这个管道工作得很好。我现在希望通过CloudBuild来部署它。这是我的cloudbuild.yaml文件： - name: "docker.io/library/python:2.7" args: ["pip", "install", "文件中导入apache_<em

浏览 1提问于2020-01-27得票数 0

回答已采纳

2回答

我已经创建了一个基于Python的管道，它包含一个利用Pythonbase64包的ParDo。当我使用DirectRunner在本地运行管道时，一切都很好。当我在Google Cloud上使用Dataflow运行相同的管道时，它失败了，错误是： NameError: name 'base64' is not defined [while running 'ParDo(WriteToSeparateFiles)-ptransform-47&#

浏览 2提问于2022-08-06得票数 0

回答已采纳

2回答

Google如何解决CERTIFICATE_VERIFY_FAILED错误？

、、

我有一个简单的数据流管道，并试图从云shell执行，from __future__ import print_functionfrombucket/output_20193003', file_name_suffix='.csv') result.wait_until_finish() 用于执行的命

浏览 0提问于2019-03-30得票数 0

回答已采纳

1回答

"ValueError:写入处置WRITE_EMPTY不支持流式插入到BigQuery“

、

我在beam python管道中使用WriteToBigQuery，如下所示： beam.io.gcp.bigquery.WriteToBigQuery( schema=table_schema, write_disposition=beam.io.BigQueryDisposition.WRITE_EMPT

浏览 10提问于2020-12-10得票数 1

1回答

Google Cloud Dataflow自定义模板-仅在流式管道中使用

、、、

我正在尝试为Google的数据流创建一个自定义模板。我只想从Pubsub打印一些消息到控制台。当我尝试暂存我的模板时，我得到一个错误，云发布/订阅仅可用于流式管道，而我的管道旨在成为流式管道:x。我正在做什么，使我的管道批处理而不是流式？import apache_beam as beam from apache_beam.option

浏览 31提问于2020-11-05得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

错误从发布/订阅流到大型查询python

流事件到大查询-数据流-向时间戳列插入纪元时间戳 (int)的最佳方法

Dataflow中的自定义Apache Beam Python版本

如何使用火花转轮运行云数据流管道？

如何修复‘属性错误:模块'apache_beam.coders.coders’没有属性‘VarIntCoder’‘

如何使用在同一管道中读取BigQuery和文件系统中的数据？

是否需要使用with语句声明apache_beam管道？

google-cloud-dataflow vs apache-apache

用Python2.7和Apache* Beam构建云*

Apache :无法从GCP PubSub读取消息。错误是AttributeError：“SubscriberGrpcTransport”对象没有属性“通道”

收到PubSub通知时触发数据流作业

Python + Beam + Flink

在Spark上运行python* Apache Beam Pipeline*

IOError:没有基于文件模式的文件

从公共输入到Apache束中的分支和合并pcollection列表

管道在数据流流道上出现名称错误而在直接流道上失败

Google如何解决CERTIFICATE_VERIFY_FAILED错误？

"ValueError:写入处置WRITE_EMPTY不支持流式插入到BigQuery“

Google Cloud Dataflow自定义模板-仅在流式管道中使用

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐