腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1967)
视频
沙龙
1
回答
基于
Apache
Beam
的
有界
数据
集
滚动
聚集
google-cloud-dataflow
、
apache-beam
、
dataflow
我有一个
有界
的
数据
集
(例如,在Google Cloud Storage中)。
数据
有两列,时间戳和温度,不能放入内存。如何使用
Beam
计算
滚动
合计(例如,温度
的
300天
滚动
平均值)?对于
有界
数据
集
,我不确定使用窗口和侧输入是否是最佳解决方案。
浏览 7
提问于2020-12-25
得票数 0
1
回答
我们可以对批处理进行窗口操作吗?
batch-processing
、
apache-beam
、
dataflow
在
Apache
光束文档中,我们谈到了使用
有界
PCollections进行窗口操作。https://
beam
.
apache
.org/documentation/programming-guide/#windowing 如果我们有一个
有界
的
数据
,那么所有的元素都将属于同一个全局窗口。
浏览 22
提问于2019-08-27
得票数 0
回答已采纳
1
回答
Apache
BatchMode对象模型问题
apache-spark
、
apache-kafka
、
batch-processing
、
apache-beam
我有一个用例,我想使用
Apache
Beam
和Spark runner以批处理模式从Kafka读取
数据
。但我发现,在批处理模式中,
数据
首先从每个分区读取,放入内存,然后传递给下一个操作(map、filter等)。 我在每个分区中都有大量
数据
,在批处理模式下读取这些
数据
时,我得到了OOM错误。我试着增加执行器
的
内存。但对于每次运行,我不能将此参数配置为所需
的
值。另一件事是,我能够以流模式读取相同
的
数据
。我认为之所以会发
浏览 17
提问于2019-12-11
得票数 0
1
回答
如何在有限
的
数据
上分批运行
apache
束?
python-3.x
、
mapreduce
、
apache-beam
、
distributed-computing
、
apache-beam-io
我正在尝试理解
apache
是如何工作
的
,我不太确定我是否这样做了。所以,我希望有人告诉我我
的
理解是否正确:
Beam
是大
数据
框架
的
抽象层,如spark、hadoop、google等。现在几乎所有的功能都是这样
的
,但几乎就是
Beam
以两种形式处理
数据
的
情况--
有界
和无界。像.csv一样
有界
,像卡夫卡
的
订阅一样无界。不同
的
i/o读取方法是不
浏览 5
提问于2020-04-12
得票数 2
1
回答
如何在
Apache
中
的
控制台上记录进度条?
python
、
apache-beam
我如何获得一个特定
的
转换,以报告它在有规律
的
间隔内处理了多少?随着时间
的
推移,这让我对它
的
运行速度有了一个概念。 我
的
模型是,它显示了一个轻量级计数器,如果给出一个总计,它可以是一个进度条。我使用
有界
数据
集
(从文件中读取)和
apache
-
beam
2.40.0。
浏览 11
提问于2022-07-12
得票数 1
1
回答
跑步者如何创建PCollection
apache-beam
就
Beam
代码而言,这将导致构造一个PCollection实例。通过查看代码,并不清楚实际构造
的
是什么,因为它仅限于new操作。
浏览 1
提问于2021-04-30
得票数 0
1
回答
从GCP桶中流大文件超过1小时最大云运行限制
node.js
、
google-cloud-platform
、
google-cloud-storage
、
google-cloud-run
我有一个大文件,其中包含一个GCP桶中
的
几百万行,我从Cloud实例中流到一个pub/sub。云运行
的
最大超时时间为1小时,没有足够
的
时间来处理整个文件,是否有其他选择或更好
的
方法来架构/处理GCP桶中
的
大量
数据
?边想: npm包@google-cloud/storage有能力去寻找文件
的
一个特定部分吗?或者我可以增加CPU
的
数量来做一些事情,比如使用像Go这样
的
语言使用多线程来处理文件吗?
浏览 5
提问于2022-09-16
得票数 1
2
回答
将不同
的
值写入
Apache
Beam
中
的
不同BigQuery表
google-bigquery
、
google-cloud-dataflow
、
apache-beam
假设我有一个PCollection<Foo>,我想把它写到多个BigQuery表中,为每个Foo选择一个可能不同
的
表。 如何使用
Apache
Beam
BigQueryIO API执行此操作?
浏览 46
提问于2017-04-20
得票数 10
回答已采纳
2
回答
检查PCollection是否为空-
Apache
束
google-cloud-dataflow
、
apache-beam
在Dataflow和
Apache
的
文档中,我没有发现任何相关
的
内容。
浏览 5
提问于2017-10-11
得票数 1
回答已采纳
1
回答
Apache
梁-从第一个元素开始滑动窗口
google-cloud-dataflow
、
apache-beam
、
dataflow
、
apache-beam-io
我正在尝试开发
数据
流管道,使用
有界
的
滑动窗口和使用
的
流
数据
集
。管道如下: data = [{'serverIDtimestamp': 3}, {'serverID': 'server_1&
浏览 1
提问于2021-06-14
得票数 0
1
回答
从卡夫卡读取
的
Apache
光束给出了CoderException: java.io.EOFException
apache-kafka
、
google-cloud-dataflow
、
apache-beam
我已经实现了一个来自Kafka
的
光束管道读取,
基于
这里
的
文档:at org.
apache
.
beam
.sdk.Pipeline.runby: org.
apache
.
beam
.s
浏览 1
提问于2017-04-04
得票数 3
1
回答
数据
流工作进程:无法安装程序包:无法安装要求:退出状态1
installation
、
google-cloud-dataflow
、
apache-beam
我正在尝试模仿这个演练here,以便构建一个管道来将sklearn模型应用于我拥有的
数据
。我
的
命令行输入和随之而来
的
错误如下: (venv) computer:predictions uswygst$ python predictions.py \/opt/anaconda3/envs/ve
浏览 9
提问于2020-09-16
得票数 0
回答已采纳
2
回答
Apache
梁中
的
窗口函数
google-cloud-platform
、
bigdata
、
apache-beam
、
dataflow
、
data-pipeline
有人知道如何在
apache
(
数据
流)中穿插窗口函数吗?17 Isabella FRA 757519 Evelyn AUS 19749问题: 谢谢布鲁诺
浏览 3
提问于2021-11-09
得票数 3
2
回答
Apache
束流在无界侧输入上被阻塞
google-cloud-dataflow
、
apache-beam
我有一个Dataflow管道(但我使用DirectRunner进行调试)和Python,其中
的
主要输入是来自PubSub
的
日志,而侧输入是来自基本不变
的
数据
库
的
关联
数据
。我想加入这两种方法,使每个日志都与来自相同近似时间
的
侧输入
数据
配对。如果没有关联
的
日志,多余
的
侧输入可以删除。 我所看到
的
行为是,管道似乎是作为一个线程运行
的
。如果侧输入
有界
(非流),这是很好<e
浏览 15
提问于2022-05-07
得票数 0
回答已采纳
1
回答
数据
流插入到BigQuery失败与大量文件
的
亚洲东北1
的
位置
google-bigquery
、
google-cloud-dataflow
、
apache-beam
模板是从客户机中踢出来
的
。 at org.
apache
.
beam
.sdk.io.gcp.bigquery.WriteRename.copy(WriteRename.
浏览 0
提问于2018-08-17
得票数 0
1
回答
Apache
横梁+大查询表读取
python
、
google-cloud-platform
、
google-bigquery
、
apache-beam
、
python-bigquery
我在项目中
的
大查询中有
数据
集
:项目:项目-x表: table01
数据
集
: dataset01import
apache
_
beam
as
beam
from
apache
_
beam
.options.pipeline_options import PipelineOptions(flags
浏览 7
提问于2019-08-17
得票数 1
2
回答
一个无界
的
PCollection怎么可能是不变
的
?
apache-beam
我正在从
数据
流/
apache
beam
开始,我正在努力理解一个概念。根据
的
说法: 那么无限
的
PCollections呢?根据定义,它们不受元素数量
的</e
浏览 7
提问于2022-08-25
得票数 1
1
回答
如何用
apache
处理org.
apache
.spark.sql.Dataset?
apache-spark-sql
、
apache-beam
我想要处理来自org.
apache
.spark.sql.Dataset对象
的
数据
,该对象是我用
Apache
从spark.sql(“query ")检索到
的
。但我无法将PTransform直接应用于此
数据
集
。现在,我使用
的
解决方案是将
数据
集
转储到txt文件,然后使用
beam
进行处理。我使用
的
是
apache
beam
2.9.0。
浏览 17
提问于2019-02-12
得票数 1
回答已采纳
1
回答
如何计算
Apache
光束中
的
标准差
python
、
apache-beam
我是
Apache
的
新手,我想计算大型
数据
集
上
的
平均偏差和std偏差。from
apache
_
beam
.options.pipeline_options import PipelineOptions from
apache
_
be
浏览 0
提问于2018-08-13
得票数 7
回答已采纳
1
回答
向pcollection添加时间戳
apache-beam
我是一个非常新手,正在使用一个简单
的
文本文件批处理加载过程。我想为在BigQuery中插入记录添加一个时间戳。是否有为PCollection添加“插入日期”
的
首选模式?我已经看到了几种不同
的
方法,但我想知道是否有更好
的
模式或最佳实践?谢谢!
浏览 14
提问于2020-09-02
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
想成为大数据开发工程师,你必须掌握的开发流程图是这样的
简述大数据技术
《从0到1学习Flink》——Apache Flink 介绍
大数据技术分享:十大开源的大数据技术
程序员需要关注的十个大数据技术
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券