腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2118)
视频
沙龙
1
回答
GCP
数据流
:
打印
PCollection
数据
google-cloud-platform
、
google-cloud-dataflow
我是
GCP
Dataflow的新手,只是想知道是否有任何方法可以
打印
PCollection
的所有值。Pipeline p = Pipeline.create(options);
PCollection
<String> lines = p.apply("ReadLines", TextIO.read().from(options.getInputFile())); 在这里,我想
打印
并检查行(
PCollection
)中所有可用的值 类似地,想要在下面的操作之后
浏览 21
提问于2020-09-24
得票数 0
回答已采纳
1
回答
连接有界和无界源,
数据流
作业不缩放。
google-cloud-platform
、
google-cloud-dataflow
、
apache-beam
、
apache-beam-io
最近,我开始与Apache和Google的云
数据流
合作,开发大
数据
处理管道。我计划利用,开发我的处理管道。 在可迭代的
数据
上执行一些ParDo(函数)。"<some-service-acco
浏览 0
提问于2019-03-19
得票数 1
2
回答
GCP
数据流
-吞吐量逐渐放缓,工人未充分利用
google-cloud-dataflow
、
throughput
我在
GCP
数据流
中运行了一个Beam脚本。此
数据流
执行以下步骤: 当读取输入文件和解密文件时,它从一个工作人员开始,然后扩展到30个工作人员。
浏览 4
提问于2020-07-12
得票数 2
1
回答
流流水线上的java.lang.NullPointerException on BigQuery.IO.Write
google-bigquery
、
google-cloud-dataflow
从
数据流
sdk中的流管道获取BigQuery.IO.Write上的以下错误 org.apache.beam.sdk.io.
gcp
.bigquery.BigQueryServicesImpl$DatasetServiceImpl.insertAll(BigQueryServicesImpl.java:759) org.apache.beam.sdk.io.
gcp
.bigquery.BigQueryServicesImpl$DatasetServiceImpl.insertAll(BigQueryServicesImpl.java:809)
浏览 1
提问于2018-01-10
得票数 0
回答已采纳
1
回答
GCP
数据流
批处理作业-防止工作人员在批处理作业中同时运行多个元素
python
、
google-cloud-platform
、
dataflow
我正在尝试在
GCP
数据流
中运行批处理作业。作业本身有时会占用大量内存。目前,作业一直在崩溃,因为我相信每个worker都在尝试同时运行
pcollection
的多个元素。
浏览 2
提问于2021-08-26
得票数 0
2
回答
多个google-
数据流
和dataproc作业
google-cloud-dataflow
、
google-cloud-dataproc
我有多个谷歌
数据流
作业,用于
数据
收集和ETL目的。然后google dataproc作业(Spark)用于进一步的机器学习。 我想把这些工作像工作流一样绑在一起,然后我就可以安排整个工作流程了。
浏览 0
提问于2016-05-26
得票数 2
1
回答
Apache光束/ Google Cloud Dataflow大查询阅读器在第二次运行时失败
google-cloud-dataflow
、
apache-beam
、
apache-beam-io
我们有一个使用Apache光束的
数据流
构建,并部署在
GCP
数据流
基础设施中。
数据流
实例第一次完全运行,并按预期创建分区表,但当它第二次运行时,它将清除
数据
集中的结果,而不是替换为特定分区中的新
数据
集。当使用本地设置中的Direct runner运行作业时,它工作得很好。project, dataset, table)) .withoutValidation()));
P
浏览 10
提问于2021-01-28
得票数 0
回答已采纳
1
回答
数据流
显示复合转换中缺少的
数据
google-cloud-platform
、
google-cloud-dataflow
、
apache-beam
我正在尝试
数据流
中的新功能,以使其他详细信息显示在Google Cloud Dataflow UI中。然而,自定义PTransform的显示
数据
并没有显示出来。在我的
数据流
管道中,我有一个如下的转换:p.apply(new PTransform<
PCollection
<Integer>,
PCollection
<Integer>>() { public
PCollection
浏览 7
提问于2016-07-27
得票数 1
回答已采纳
0
回答
从CoderRegistry推断编码器失败:无法为com.google.api.services.bigquery.model.TableRow提供编码器
google-cloud-platform
、
airflow
我有一个
数据流
作业,使用DataFlowRunner在本地运行时运行得很好,但当我尝试使用
GCP
的Composer/AirFlow运行它时,它会给我一个错误: at
浏览 1
提问于2018-07-19
得票数 0
回答已采纳
1
回答
云
数据流
/波束-
PCollection
查找另一个
PCollection
google-cloud-dataflow
、
apache-beam
、
dataflow
a)从有界源读取,当在
数据流
中运行时,
PCollection
大小可以有多大?b)在处理大
数据
时,假设
PCollection
的约5000万个
数据
试图查找
PCollection
的约1000万个
数据
中的另一个
PCollection
。这可以做到吗?波束/
数据流
的表现有多好?在ParDo函数中,假设我们只能传递一个输入并返回一个输出,那么如何基于两个输入
数据
集执行查找呢?我正在尝试使用类似于任何其他ETL工具的<em
浏览 4
提问于2018-09-04
得票数 0
1
回答
在基于Google
数据流
的会话窗口中使用的密钥是什么?
google-cloud-platform
、
google-cloud-dataflow
、
dataflow
我对
数据流
很陌生。我在google文档中看到了这个例子。
PCollection
<String> items = ...; Window<String>into(Sessions.withGapDuration(Duration.standardMinutes(10)))); 1)在上面的例子中,
数据流
用来创建窗口的关键是什么?2)如果我的输入源是pubsub,我
浏览 0
提问于2017-03-06
得票数 0
回答已采纳
1
回答
数据流
中的DirectPipelineRunner从本地计算机读取到谷歌云存储
google-cloud-dataflow
、
apache-beam
、
dataflow
我尝试运行
数据流
管道,从本地机器(Windows)读取
数据
,并使用DirectPipelineRunner将
数据
写入谷歌云存储。作业失败,错误如下:指定FileNotFoundException(因此我认为
数据流
作业无法读取我的位置)。我从本地计算机运行该作业,以运行我创建的基于
GCP
的模板。我可以在
GCP
Dataflow仪表板中看到它,但失败并显示以下错误。请帮帮忙。我也尝试了我的本地机器的IP或主机名以及我的本地位置,但面对这个FileNotFoundException?/
浏览 4
提问于2018-08-10
得票数 1
2
回答
数据流
管道python依赖安装,但无法导入。
dataflow
我有一个在本地机器上成功运行的简单
数据流
管道:import loggingimport apache_beam as beam p = beam.Pipeline(options=pipeline_options) )
浏览 0
提问于2019-03-21
得票数 0
回答已采纳
1
回答
PCollection
尺寸的确定
google-cloud-dataflow
我正在编写一个
数据流
作业,它将从GCS和BigQuery读取
数据
。这项工作将合并从两个来源读取的
数据
。合并的
数据
只是字符串。然后,将合并后的
数据
发布到外部api.Custom接收器中,以便发布统一
数据
。如果合并的
数据
超过1GB,我只想失败
数据流
工作。如何获得
PCollection
中显示的
数据
大小?目前,我正在使用以下代码确定大
浏览 4
提问于2015-06-26
得票数 0
回答已采纳
1
回答
PCollection
<Entity>到
PCollection
<TableRows>
google-app-engine
、
google-bigquery
、
google-cloud-dataflow
我试图使用Dataflow查询
数据
存储中的所有类型,并将它们写入BigQuery中的日期分段分区中。DatastoreIO.read()的阅读部分很简单,给了我一个
PCollection
<Entity>。BigQuery需要一个
PCollection
<TableRow>,我能隐式地从一个转换到另一个吗?我的
数据
涉及一些不可预测的字段(例如,嵌入属性中的袋子
数据
),所以我不能显式地转换所有字段。此外,如果与此相关,我希望使用SerializableFunction动态地为每个
浏览 6
提问于2017-06-23
得票数 0
回答已采纳
1
回答
Google
数据流
模板大小上限为10 at
google-cloud-platform
、
google-cloud-dataflow
、
apache-beam
我在Google
数据流
上建立了一个模板,它运行得很好。经过对分区添加并行处理的修改后,模板尺寸大大增大。我试着运行它却失败了。看起来
gcp
的模板大小上限在10 MB左右。是否有任何方法来增加限制或压缩生成的模板?我所做的更新很大程度上是从
pCollection
创建分区。然后,此
pCollection
中的每个pCollectionList启动相同的转换和文件写入结构。如果没有分区,大小为1.5mb。分为4个部分,生长至6mb。当进行8个分区时,它增长到12 mb。起源过程就像这个String option -> <em
浏览 0
提问于2019-06-23
得票数 2
回答已采纳
1
回答
我们是否可以使用单个Google Cloud Dataflow将
数据
从多个Pubsub (源)写入多个GCS (宿)?
google-cloud-storage
、
google-cloud-dataflow
、
pipeline
、
google-cloud-pubsub
、
apache-beam
我有3个不同的Pubsubs (源)和3个相应的GCS bucket(接收器),用于它们处理相似的
数据
。dataflow_def ---> gcs_bucket_def 有没有一种方法可以使管道使用单个
数据流
,可以从多个源读取
数据
,并将它们写入多个相应的接收器?| | pubsub_topic_ghi ---- ---> gcs_bucket
浏览 0
提问于2020-09-09
得票数 0
2
回答
从PCollections获取列表
java
、
google-cloud-platform
、
pipeline
、
dataflow
我想要一个来自
Pcollection
的列表值。
PCollection
<List<Integer>> lst = bqT2.apply(ParDo.of(new List myList = lst.getAll有什么方法可以从
PCollection
上列出吗?BigQueryIO.read
浏览 2
提问于2018-06-24
得票数 0
1
回答
从Google云存储读取到本地计算机的
数据流
google-cloud-dataflow
、
apache-beam
、
dataflow
我尝试了一个
数据流
作业,从Google云存储中读取并写入本地计算机。我用的是DirectPipelineRunner。作业已成功完成。但是我没有看到写在我本地机器上的文件。bucket/templatename1 --parameters inputFilePattern=gs://samplegcsbucket/abc/*,outputLocation=C:\data\
gcp
\outer,runner=DirectPipelineRunner
PCollection
<Stri
浏览 12
提问于2018-08-09
得票数 1
1
回答
BigQueryIO -流和FILE_LOADS的写入性能
google-cloud-platform
、
google-bigquery
、
google-cloud-dataflow
、
apache-beam
My管线: Kafka ->
数据流
流(Beamv2.3) -> BigQueryBigQueryIO.writeTableRows()
浏览 0
提问于2018-03-19
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
高技能人才或是未来5-10年大数据发展的最大瓶颈
大数据公司 LiveRamp 上云记(三):如何在吞吐量有限的情况下处理数据复制
微软、谷歌开打持久战,亚马逊云能否继续一家独大?
用大数据告诉你 托管打印服务才是未来大势所趋
HiveMQ为物联网应用推出了完全托管、完全兼容的MQTT 5服务
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券