基于Apache Beam的有界数据集滚动聚集_org.apache.spark.sql.AnalysisException:流式数据帧/数据集上不支持非基于时间的窗口；；尽管存在基于时间的窗口 - 腾讯云开发者社区

google-cloud-dataflow、apache-beam、dataflow

我有一个有界的数据集(例如，在Google Cloud Storage中)。数据有两列，时间戳和温度，不能放入内存。如何使用Beam计算滚动合计(例如，温度的300天滚动平均值)？对于有界数据集，我不确定使用窗口和侧输入是否是最佳解决方案。

浏览 7提问于2020-12-25得票数 0

1回答

我们可以对批处理进行窗口操作吗？

batch-processing、apache-beam、dataflow

在Apache光束文档中，我们谈到了使用有界PCollections进行窗口操作。https://beam.apache.org/documentation/programming-guide/#windowing 如果我们有一个有界的数据，那么所有的元素都将属于同一个全局窗口。

浏览 22提问于2019-08-27得票数 0

回答已采纳

1回答

Apache BatchMode对象模型问题

apache-spark、apache-kafka、batch-processing、apache-beam

我有一个用例，我想使用Apache Beam和Spark runner以批处理模式从Kafka读取数据。但我发现，在批处理模式中，数据首先从每个分区读取，放入内存，然后传递给下一个操作(map、filter等)。我在每个分区中都有大量数据，在批处理模式下读取这些数据时，我得到了OOM错误。我试着增加执行器的内存。但对于每次运行，我不能将此参数配置为所需的值。另一件事是，我能够以流模式读取相同的数据。我认为之所以会发

浏览 17提问于2019-12-11得票数 0

1回答

如何在有限的数据上分批运行apache束？

python-3.x、mapreduce、apache-beam、distributed-computing、apache-beam-io

我正在尝试理解apache是如何工作的，我不太确定我是否这样做了。所以，我希望有人告诉我我的理解是否正确： Beam是大数据框架的抽象层，如spark、hadoop、google等。现在几乎所有的功能都是这样的，但几乎就是Beam以两种形式处理数据的情况--有界和无界。像.csv一样有界，像卡夫卡的订阅一样无界。不同的i/o读取方法是不

浏览 5提问于2020-04-12得票数 2

1回答

如何在Apache中的控制台上记录进度条？

python、apache-beam

我如何获得一个特定的转换，以报告它在有规律的间隔内处理了多少？随着时间的推移，这让我对它的运行速度有了一个概念。我的模型是，它显示了一个轻量级计数器，如果给出一个总计，它可以是一个进度条。我使用有界数据集(从文件中读取)和apache-beam 2.40.0。

浏览 11提问于2022-07-12得票数 1

1回答

跑步者如何创建PCollection

apache-beam

就Beam代码而言，这将导致构造一个PCollection实例。通过查看代码，并不清楚实际构造的是什么，因为它仅限于new操作。

浏览 1提问于2021-04-30得票数 0

1回答

从GCP桶中流大文件超过1小时最大云运行限制

node.js、google-cloud-platform、google-cloud-storage、google-cloud-run

我有一个大文件，其中包含一个GCP桶中的几百万行，我从Cloud实例中流到一个pub/sub。云运行的最大超时时间为1小时，没有足够的时间来处理整个文件，是否有其他选择或更好的方法来架构/处理GCP桶中的大量数据？边想: npm包@google-cloud/storage有能力去寻找文件的一个特定部分吗？或者我可以增加CPU的数量来做一些事情，比如使用像Go这样的语言使用多线程来处理文件吗？

浏览 5提问于2022-09-16得票数 1

2回答

将不同的值写入Apache Beam中的不同BigQuery表

google-bigquery、google-cloud-dataflow、apache-beam

假设我有一个PCollection<Foo>，我想把它写到多个BigQuery表中，为每个Foo选择一个可能不同的表。如何使用Apache Beam BigQueryIO API执行此操作？

浏览 46提问于2017-04-20得票数 10

回答已采纳

2回答

检查PCollection是否为空- Apache束

google-cloud-dataflow、apache-beam

在Dataflow和Apache的文档中，我没有发现任何相关的内容。

浏览 5提问于2017-10-11得票数 1

回答已采纳

1回答

Apache梁-从第一个元素开始滑动窗口

google-cloud-dataflow、apache-beam、dataflow、apache-beam-io

我正在尝试开发数据流管道，使用有界的滑动窗口和使用的流数据集。管道如下： data = [{'serverIDtimestamp': 3}, {'serverID': 'server_1&

浏览 1提问于2021-06-14得票数 0

1回答

从卡夫卡读取的Apache光束给出了CoderException: java.io.EOFException

apache-kafka、google-cloud-dataflow、apache-beam

我已经实现了一个来自Kafka的光束管道读取，基于这里的文档：at org.apache.beam.sdk.Pipeline.runby: org.apache.beam.s

浏览 1提问于2017-04-04得票数 3

1回答

数据流工作进程:无法安装程序包:无法安装要求:退出状态1

installation、google-cloud-dataflow、apache-beam

我正在尝试模仿这个演练here，以便构建一个管道来将sklearn模型应用于我拥有的数据。我的命令行输入和随之而来的错误如下： (venv) computer:predictions uswygst$ python predictions.py \/opt/anaconda3/envs/ve

浏览 9提问于2020-09-16得票数 0

回答已采纳

2回答

Apache梁中的窗口函数

google-cloud-platform、bigdata、apache-beam、dataflow、data-pipeline

有人知道如何在apache (数据流)中穿插窗口函数吗？17 Isabella FRA 757519 Evelyn AUS 19749问题：谢谢布鲁诺

浏览 3提问于2021-11-09得票数 3

2回答

Apache束流在无界侧输入上被阻塞

google-cloud-dataflow、apache-beam

我有一个Dataflow管道(但我使用DirectRunner进行调试)和Python，其中的主要输入是来自PubSub的日志，而侧输入是来自基本不变的数据库的关联数据。我想加入这两种方法，使每个日志都与来自相同近似时间的侧输入数据配对。如果没有关联的日志，多余的侧输入可以删除。我所看到的行为是，管道似乎是作为一个线程运行的。如果侧输入有界(非流)，这是很好<e

浏览 15提问于2022-05-07得票数 0

回答已采纳

1回答

数据流插入到BigQuery失败与大量文件的亚洲东北1的位置

google-bigquery、google-cloud-dataflow、apache-beam

模板是从客户机中踢出来的。 at org.apache.beam.sdk.io.gcp.bigquery.WriteRename.copy(WriteRename.

浏览 0提问于2018-08-17得票数 0

1回答

Apache横梁+大查询表读取

python、google-cloud-platform、google-bigquery、apache-beam、python-bigquery

我在项目中的大查询中有数据集:项目:项目-x表: table01数据集: dataset01import apache_beam as beam from apache_beam.options.pipeline_options import PipelineOptions(flags

浏览 7提问于2019-08-17得票数 1

2回答

一个无界的PCollection怎么可能是不变的？

apache-beam

我正在从数据流/apache beam开始，我正在努力理解一个概念。根据的说法：那么无限的PCollections呢？根据定义，它们不受元素数量的</e

浏览 7提问于2022-08-25得票数 1

1回答

如何用apache处理org.apache.spark.sql.Dataset？

apache-spark-sql、apache-beam

我想要处理来自org.apache.spark.sql.Dataset对象的数据，该对象是我用Apache从spark.sql(“query ")检索到的。但我无法将PTransform直接应用于此数据集。现在，我使用的解决方案是将数据集转储到txt文件，然后使用beam进行处理。我使用的是apache beam 2.9.0。

浏览 17提问于2019-02-12得票数 1

回答已采纳

1回答

如何计算Apache光束中的标准差

python、apache-beam

我是Apache的新手，我想计算大型数据集上的平均偏差和std偏差。from apache_beam.options.pipeline_options import PipelineOptions from apache_be

浏览 0提问于2018-08-13得票数 7

回答已采纳

1回答

向pcollection添加时间戳

apache-beam

我是一个非常新手，正在使用一个简单的文本文件批处理加载过程。我想为在BigQuery中插入记录添加一个时间戳。是否有为PCollection添加“插入日期”的首选模式？我已经看到了几种不同的方法，但我想知道是否有更好的模式或最佳实践？谢谢!

浏览 14提问于2020-09-02得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云