腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为
Dataflow
和
Apache
光束
创建
一个
超级
jar
我想用Maven
创建
一个
包含我的流水线、数据流
和
Apache
光束
的
超级
jar
,有没有我可以查看的例子?
浏览 6
提问于2018-09-07
得票数 2
2
回答
google-cloud-
dataflow
vs
apache
-
apache
、
令人困惑的是,每个关于数据流的谷歌文档都说它现在是基于
Apache
光束
的,并将我引导到
光束
网站。此外,如果我查找github项目,我会发现google
dataflow
项目是空的,并且所有的项目都转到
apache
see repo。假设我现在需要
创建
一个
管道,根据我从
Apache
光束
中读到的,我会这样做:from
apache
_beam.options.pipeline_options然而,如果我使用google-c
浏览 1
提问于2017-06-16
得票数 3
1
回答
阻止管道在Google
Dataflow
上运行的类路径问题
、
、
、
由于应用程序在发布之前将事件存储在GCS中,因此我们认为使用
DataFlow
运行的
Apache
光束
管道应该可以做到这一点。
一个
“重放请求”可能会导致多个管道,因为GCS中的事件存储在包含日期(例如gs://<entity>/2020/12/13/event.json)的文件夹结构中,并且根据消费者需要多少历史记录,我们每天
创建
一个
事件管道我相当确信定义
和
提交管道的逻辑是正确的,因为应用程序能够使用D
浏览 6
提问于2021-02-19
得票数 0
2
回答
用于暂存位置的无效GCS
、
当通过包含所有依赖项的
jar
启动数据流作业(v.2.4.0)时,似乎不是使用提供的GCS路径,而是在本地
创建
一个
gs:/文件夹,因此数据流工作人员尝试访问<localjarfolderpath>/gs:(如果我正确的话)--这不是
dataflow
1.x.x的情况。示例命令: java -cp 0.1-1.0-SNAPSHOT-
jar
-with-dependencies.
jar
Main --stagingLocation=gs://t
浏览 0
提问于2018-04-04
得票数 6
回答已采纳
2
回答
是否可以在不具有本地所有依赖项的情况下运行/序列化数据流作业?
、
、
我已经使用
Apache
光束
为
Google Cloud
Dataflow
创建
了
一个
管道,但我不能在本地拥有Python依赖项。但是,远程安装这些依赖项是没有问题的。在我的本地(开发)环境中,有没有可能在不执行Python代码的情况下运行作业或
创建
模板?
浏览 1
提问于2019-09-27
得票数 0
1
回答
通过数据流SQL实现云发布/订阅到BigQuery
、
、
、
在我的例子中,我有一些定期发布到云发布/订阅的内容,然后
Dataflow
将其写入BigQuery。通过的消息量数以千计,所以我的发布者客户端有1000条消息的批处理设置,1mb
和
10秒的延迟。问题是,在批处理中发布时,
Dataflow
SQL是接收批处理中的所有消息并将其一次性写入BigQuery,还是一次写入一条消息? 有没有
一个
比另
一个
更好的好处呢? 如果需要任何其他细节,请评论。
浏览 35
提问于2021-11-23
得票数 0
回答已采纳
1
回答
使用PubSubIO读取数据流的速度非常慢
、
、
、
、
我在使用从PubSub读取
和
写入BigQuery的数据流管道时遇到了一些问题。3)检查了PubSub配额
和
pull/push率,但绝对正常。我检查了实例资源
和
CPU、RAM、磁盘读/写速率,与其他管道相比都是正常的。唯一稍微高一点的是网络速率:大约400k字节/秒(2000个包/秒)传出
和
300k字节/
浏览 3
提问于2017-08-19
得票数 0
1
回答
在
apache
波束中
创建
自定义Sink
、
我正在使用
apache
并试图
创建
一个
自定义接收器,不幸的是,无法找到任何关于如何
创建
自定义接收器.Can的指南。在以前的数据流中,我用来覆盖com.google.cloud.
dataflow
.sdk.io.Sink中可用的Sink 我似乎找不到类似的呼叫在Beam.Is,它仍然可以飞行在
光束
某处?我正在使用beam 2.3SDK
和
Java
浏览 0
提问于2018-03-18
得票数 2
回答已采纳
2
回答
Eclipse:“Update Hierarchy”期间发生内部错误
在尝试运行eclipse中的Google cloud
dataflow
Wordcount示例时,这里引用了“更新层次结构”过程中发生内部错误。尝试
为
不存在PipelineOptions类型的Java项目“my Project name”
创建
TypeHierarchyPipelineOptionsHierarchy 根据下面的stackoverflow根据我对这个问题的研究,看起来google-cloud-
dataflow
-java-sdk-all-2.0.0-beta1.
jar
没有P
浏览 16
提问于2017-01-17
得票数 1
回答已采纳
2
回答
如何从Prem Hadoop迁移到GCP
、
、
、
我正在尝试将我们组织的hadoop作业迁移到GCP…我对GCP数据流和数据处理感到困惑…… 我希望重用我们已经
创建
的Hadoop作业,并尽可能减少对集群的管理。
浏览 12
提问于2019-02-11
得票数 0
回答已采纳
1
回答
Dataflow
中的自定义
Apache
Beam Python版本
、
、
我想知道是否有可能有
一个
自定义的阿帕奇
光束
Python版本运行在谷歌数据流。在公共存储库中不可用的版本(在撰写本文时: 0.6.0
和
2.0.0)。这上面甚至有
一个
GIST的。 但我还没有设法得到当前的
Apache
光束
开发版本(或标记的版本),该版本可在其官方存储库的主分支中获得,以便打包并将我的脚本发送到Google
Dataflow
。例如,对于最新的可用标记,其PiP处理的链接将是:git+https://github.com/
a
浏览 16
提问于2017-07-27
得票数 4
回答已采纳
1
回答
使用setup.py在数据流中运行
apache
作业时的ModuleNotFoundError
、
、
我有
一个
apache
beam管道,我用来提交给google
dataflow
,它运行成功。随着时间的推移,我的代码不断增长,我希望将其构建
为
多个文件依赖项。这就是为什么我提到了阿帕奇
光束
部分Multiple File Dependencies 当我按如下方式组织代码时: root_dir/ main.py extract/ extract.py 当我在本地执行它时,它运行良好,当
浏览 2
提问于2021-09-24
得票数 1
回答已采纳
3
回答
当运行带有Python 3的
Apache
Beam v2.2.5时,我应该使用哪个版本的dill?
、
、
、
、
我正在尝试使用
Apache
Beamv2.25
和
Python3.7运行
一个
数据流作业。在使用DirectRunner时,一切运行正常,但是当它试图从另
一个
私有Python模块调用函数时,作业会出错。packages=setuptools.find_packages(),package_data={"": ["*.json"]}, ) 我的问题是,我应该为
Apache
我目前使用的是Dill v0.3.3 我有<e
浏览 17
提问于2020-11-20
得票数 1
1
回答
有没有办法在GCP数据流使用
apache
beam完成工作后进行处理?
、
、
在GCP数据流状态
为
done/completed后,是否可以进行后期处理。我有
一个
进程,
dataflow
从GCP存储中批量读取
一个
文件,并执行一些外部api调用进行转换,然后写回另
一个
文件。我正在使用
Apache
光束
和
模板来运行GCP数据流。
浏览 2
提问于2021-07-30
得票数 0
2
回答
Java应用程序中的Maven冲突与google核心-grpc依赖关系
、
、
、
、
(我还提出了
一个
GitHub问题- ) 依赖1- google-cloud-
dataflow
-java-sdk-all <groupId>org.
apache
.beam</groupId> <artifactId>beam-runners-google-cloud-
浏览 0
提问于2018-11-22
得票数 7
1
回答
Google数据流与Ms SSIS ETL工具的比较
、
各位GCP开发人员好,谢谢
浏览 1
提问于2018-11-21
得票数 0
1
回答
通过
Apache
airflow进行编排时,将
apache
Beam版本升级到2.11.0失败
、
、
、
Apache
光束
Python SDK升级到2.11.0问题。
apache
_beam==2.11.0 httplib2==0.11.3 google-cloudgoogle计算引擎上有两个vm实例,
一个
是master实例,另
一个
是worker实例。这些实例将安装requirements.txt文件中
浏览 8
提问于2019-03-27
得票数 1
6
回答
Google Cloud
Dataflow
和
Google Cloud Dataproc之间的区别是什么?
、
、
我正在使用Google Data Flow来实现
一个
ETL数据仓库解决方案。而且看起来DataProc比
DataFlow
便宜一点。有没有人知道相对于DataProc,
DataFlow
的优缺点 为什么谷歌同时提供这两种服务?
浏览 1
提问于2017-09-27
得票数 66
1
回答
如何在
Apache
Beam中实现类似于Spark累加器的变量
我目前使用的是Spark中的
Apache
Beam2.29.0。我的管道使用来自Kafka的数据,我有
一个
自定义的KafkaConsumer,它是Beam通过调用ConsumerFactoryFn
创建
的。在Spark中,这将非常简单,我将
创建
一个
累加器变量,所有的执行器以及驱动程序都可以访问该变量。由于
光束
被设计
为
在多个平台上运行,Spark,Flink,Google
Dataflow
,它不提供此功能。有谁知道实现这一点的方法吗?
浏览 16
提问于2021-09-10
得票数 0
1
回答
在Google Cloud数据流/
Apache
Beam中
创建
GCS对象的PCollection
、
、
我正在尝试通过Cloud
Dataflow
学习我的方法。为了便于学习,我将它们的基本分解
为
一个
简单的带状函数。我想
创建
一个
GCS对象文件名的PCollection。我可以编写
一个
循环,逐个抛出要处理的每个对象,但这不是我想要做的。我想保持这一部分的动态性,让
Apache
光束
来处理剩下的部分。我只想给出
一个
GCS文件的列表。我也不想做像'gs://
dataflow
-samples/
浏览 0
提问于2018-12-16
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
社媒为王和超级平台时代,新旧社区&社群创建的本质区别和6个步骤!
Java近期新闻:JDK 21 序列集合、JDK 20 向量API、Gen ZGC、Hilla 2.0
如何高效利用Java UI组件库,开发现代化图形用户
ant+Jacoco 统计tomcat远程部署后项目接口自动化测试或者功能测试代码覆盖率
使用 Spring Boot 如何快速进行 Web 微服务开发?
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券