为Dataflow和Apache光束创建一个超级jar

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

我想用Maven创建一个包含我的流水线、数据流和Apache光束的超级jar，有没有我可以查看的例子？

浏览 6提问于2018-09-07得票数 2

2回答

google-cloud-dataflow vs apache-apache

、

令人困惑的是，每个关于数据流的谷歌文档都说它现在是基于Apache光束的，并将我引导到光束网站。此外，如果我查找github项目，我会发现google dataflow项目是空的，并且所有的项目都转到apache see repo。假设我现在需要创建一个管道，根据我从Apache光束中读到的，我会这样做：from apache_beam.options.pipeline_options然而，如果我使用google-c

浏览 1提问于2017-06-16得票数 3

1回答

阻止管道在Google Dataflow上运行的类路径问题

、、、

由于应用程序在发布之前将事件存储在GCS中，因此我们认为使用DataFlow运行的Apache光束管道应该可以做到这一点。一个“重放请求”可能会导致多个管道，因为GCS中的事件存储在包含日期(例如gs://<entity>/2020/12/13/event.json)的文件夹结构中，并且根据消费者需要多少历史记录，我们每天创建一个事件管道我相当确信定义和提交管道的逻辑是正确的，因为应用程序能够使用D

浏览 6提问于2021-02-19得票数 0

2回答

用于暂存位置的无效GCS

、

当通过包含所有依赖项的jar启动数据流作业(v.2.4.0)时，似乎不是使用提供的GCS路径，而是在本地创建一个gs:/文件夹，因此数据流工作人员尝试访问<localjarfolderpath>/gs:(如果我正确的话)--这不是dataflow 1.x.x的情况。示例命令： java -cp 0.1-1.0-SNAPSHOT-jar-with-dependencies.jar Main --stagingLocation=gs://t

浏览 0提问于2018-04-04得票数 6

回答已采纳

2回答

是否可以在不具有本地所有依赖项的情况下运行/序列化数据流作业？

、、

我已经使用Apache光束为Google Cloud Dataflow创建了一个管道，但我不能在本地拥有Python依赖项。但是，远程安装这些依赖项是没有问题的。在我的本地(开发)环境中，有没有可能在不执行Python代码的情况下运行作业或创建模板？

浏览 1提问于2019-09-27得票数 0

1回答

通过数据流SQL实现云发布/订阅到BigQuery

、、、

在我的例子中，我有一些定期发布到云发布/订阅的内容，然后Dataflow将其写入BigQuery。通过的消息量数以千计，所以我的发布者客户端有1000条消息的批处理设置，1mb和10秒的延迟。问题是，在批处理中发布时，Dataflow SQL是接收批处理中的所有消息并将其一次性写入BigQuery，还是一次写入一条消息？有没有一个比另一个更好的好处呢？如果需要任何其他细节，请评论。

浏览 35提问于2021-11-23得票数 0

回答已采纳

1回答

使用PubSubIO读取数据流的速度非常慢

、、、、

我在使用从PubSub读取和写入BigQuery的数据流管道时遇到了一些问题。3)检查了PubSub配额和pull/push率，但绝对正常。我检查了实例资源和CPU、RAM、磁盘读/写速率，与其他管道相比都是正常的。唯一稍微高一点的是网络速率:大约400k字节/秒(2000个包/秒)传出和300k字节/

浏览 3提问于2017-08-19得票数 0

1回答

在apache波束中创建自定义Sink

、

我正在使用apache并试图创建一个自定义接收器，不幸的是，无法找到任何关于如何创建自定义接收器.Can的指南。在以前的数据流中，我用来覆盖com.google.cloud.dataflow.sdk.io.Sink中可用的Sink 我似乎找不到类似的呼叫在Beam.Is，它仍然可以飞行在光束某处？我正在使用beam 2.3SDK和Java

浏览 0提问于2018-03-18得票数 2

回答已采纳

2回答

Eclipse：“Update Hierarchy”期间发生内部错误

在尝试运行eclipse中的Google cloud dataflow Wordcount示例时，这里引用了“更新层次结构”过程中发生内部错误。尝试为不存在PipelineOptions类型的Java项目“my Project name”创建TypeHierarchyPipelineOptionsHierarchy 根据下面的stackoverflow根据我对这个问题的研究，看起来google-cloud-dataflow-java-sdk-all-2.0.0-beta1.jar没有P

浏览 16提问于2017-01-17得票数 1

回答已采纳

2回答

如何从Prem Hadoop迁移到GCP

、、、

我正在尝试将我们组织的hadoop作业迁移到GCP…我对GCP数据流和数据处理感到困惑…… 我希望重用我们已经创建的Hadoop作业，并尽可能减少对集群的管理。

浏览 12提问于2019-02-11得票数 0

回答已采纳

1回答

Dataflow中的自定义Apache Beam Python版本

、、

我想知道是否有可能有一个自定义的阿帕奇光束Python版本运行在谷歌数据流。在公共存储库中不可用的版本(在撰写本文时: 0.6.0和2.0.0)。这上面甚至有一个GIST的。但我还没有设法得到当前的Apache光束开发版本(或标记的版本)，该版本可在其官方存储库的主分支中获得，以便打包并将我的脚本发送到Google Dataflow。例如，对于最新的可用标记，其PiP处理的链接将是：git+https://github.com/a

浏览 16提问于2017-07-27得票数 4

回答已采纳

1回答

使用setup.py在数据流中运行apache作业时的ModuleNotFoundError

、、

我有一个apache beam管道，我用来提交给google dataflow，它运行成功。随着时间的推移，我的代码不断增长，我希望将其构建为多个文件依赖项。这就是为什么我提到了阿帕奇光束部分Multiple File Dependencies 当我按如下方式组织代码时： root_dir/ main.py extract/ extract.py 当我在本地执行它时，它运行良好，当

浏览 2提问于2021-09-24得票数 1

回答已采纳

3回答

当运行带有Python 3的Apache* Beam v2.2.5时，我应该使用哪个版本的dill？*

、、、、

我正在尝试使用Apache Beamv2.25和Python3.7运行一个数据流作业。在使用DirectRunner时，一切运行正常，但是当它试图从另一个私有Python模块调用函数时，作业会出错。packages=setuptools.find_packages(),package_data={"": ["*.json"]}, ) 我的问题是，我应该为Apache我目前使用的是Dill v0.3.3 我有<e

浏览 17提问于2020-11-20得票数 1

1回答

有没有办法在GCP数据流使用apache* beam完成工作后进行处理？*

、、

在GCP数据流状态为done/completed后，是否可以进行后期处理。我有一个进程，dataflow从GCP存储中批量读取一个文件，并执行一些外部api调用进行转换，然后写回另一个文件。我正在使用Apache光束和模板来运行GCP数据流。

浏览 2提问于2021-07-30得票数 0

2回答

Java应用程序中的Maven冲突与google核心-grpc依赖关系

、、、、

(我还提出了一个GitHub问题- ) 依赖1- google-cloud-dataflow-java-sdk-all <groupId>org.apache.beam</groupId> <artifactId>beam-runners-google-cloud-

浏览 0提问于2018-11-22得票数 7

1回答

Google数据流与Ms SSIS ETL工具的比较

、

各位GCP开发人员好，谢谢

浏览 1提问于2018-11-21得票数 0

1回答

通过Apache* airflow进行编排时，将apache Beam版本升级到2.11.0失败*

、、、

Apache光束Python SDK升级到2.11.0问题。 apache_beam==2.11.0 httplib2==0.11.3 google-cloudgoogle计算引擎上有两个vm实例，一个是master实例，另一个是worker实例。这些实例将安装requirements.txt文件中

浏览 8提问于2019-03-27得票数 1

6回答

Google Cloud Dataflow和Google Cloud Dataproc之间的区别是什么？

、、

我正在使用Google Data Flow来实现一个ETL数据仓库解决方案。而且看起来DataProc比DataFlow便宜一点。有没有人知道相对于DataProc，DataFlow的优缺点为什么谷歌同时提供这两种服务？

浏览 1提问于2017-09-27得票数 66

1回答

如何在Apache* Beam中实现类似于Spark累加器的变量*

我目前使用的是Spark中的Apache Beam2.29.0。我的管道使用来自Kafka的数据，我有一个自定义的KafkaConsumer，它是Beam通过调用ConsumerFactoryFn创建的。在Spark中，这将非常简单，我将创建一个累加器变量，所有的执行器以及驱动程序都可以访问该变量。由于光束被设计为在多个平台上运行，Spark，Flink，Google Dataflow，它不提供此功能。有谁知道实现这一点的方法吗？

浏览 16提问于2021-09-10得票数 0

1回答

在Google Cloud数据流/Apache* Beam中创建GCS对象的PCollection*

、、

我正在尝试通过Cloud Dataflow学习我的方法。为了便于学习，我将它们的基本分解为一个简单的带状函数。我想创建一个GCS对象文件名的PCollection。我可以编写一个循环，逐个抛出要处理的每个对象，但这不是我想要做的。我想保持这一部分的动态性，让Apache光束来处理剩下的部分。我只想给出一个GCS文件的列表。我也不想做像'gs://dataflow-samples/

浏览 0提问于2018-12-16得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云