Apache Beam - Python :如何通过累积获得PCollection的前10个元素？ - 腾讯云开发者社区

、、

我想像这样提取前10名的最高分： Paul - 38Hugo - 27Kevin - 19(10 elements) 我使用一个固定的窗口和一个数据驱动的触发器，在窗格收集了X个元素后输出早期结果。另外，我使用了一个合并器来获得前十名的最高分。(inputs

浏览 26提问于2019-06-16得票数 0

回答已采纳

2回答

Dataflow/ApacheBeam限制输入到第一个X数量？

、、

我有一个有界的PCollection，但我只想获得前X个输入量，并丢弃其余的。有没有办法使用Dataflow2.x/ApacheBeam来做到这一点？

浏览 2提问于2018-03-31得票数 4

2回答

检查PCollection是否为空- Apache束

、

有没有办法检查PCollection是否为空？在Dataflow和Apache的文档中，我没有发现任何相关的内容。

浏览 5提问于2017-10-11得票数 1

回答已采纳

1回答

在Apache Beam上传递PCollection作为侧输入的KeyError

、、、、

我将side_input PCollection作为侧输入传递给ParDo转换，但是为了同样的目的获得了KeyError import apache_beam as beam from apache_beam.options.pipeline_options/site-packages/apache_beam/pipeline.py", line 555, in __exit_

浏览 12提问于2020-09-26得票数 1

回答已采纳

1回答

如何获取PCollection<String，String>中的元素总数

、、

我想要在apache beam中获得PCollection<String, String>中元素的总数。我想存储此计数以备将来使用。如何编写同样的java代码呢？

浏览 20提问于2019-04-22得票数 0

回答已采纳

0回答

Apache-Beam将序列号添加到PCollection

、、、、

我使用的是Apache Bea，Python和DataFlow，还有BigQuery。我需要为pcollection的每个元素分配一个序列号，以便将其加载到BigQuery中，但我找不到任何方法来做到这一点。我认为我需要DataFlow来进行前面的聚合和连接，以获得添加序列号的最终pcollection，但此时我需要停止并行处理，并将pcollection转换为一个列表(就像使用.collect()时在Spark这是

浏览 0提问于2017-12-03得票数 1

回答已采纳

1回答

使用Apache光束根据计数进行过滤

、、

我正在使用Dataflow和Apache Beam处理一个数据集，并将结果存储在一个有两列的无头csv文件中，如下所示： A1,aA3,bA5,c ...我想根据以下两个条件过滤掉某些条目： 1-在第二列中，如果某个值出现的次数小于N，则删除所有此类行。例如，如果N=10和c只出现了7次，那么我希望所有这些行都被过滤掉。2-在第二列中，如果某个值出现的次数超过M，则只保留M中的许多行，并过滤掉其余行。例如，如果M=1000和a出现了1200次，那么我希望过滤掉20

浏览 55提问于2020-06-12得票数 1

1回答

向pcollection添加时间戳

我是一个非常新手，正在使用一个简单的文本文件批处理加载过程。我想为在BigQuery中插入记录添加一个时间戳。是否有为PCollection添加“插入日期”的首选模式？我已经看到了几种不同的方法，但我想知道是否有更好的模式或最佳实践？谢谢!

浏览 14提问于2020-09-02得票数 0

1回答

在数据流中，python zip函数的等效性是什么？

、

我正在使用python的apache_beam版本。我有大约300个文件，每个数组包含400万个条目。整个过程大约是5Gb，存储在一个gs桶上。通过读取每个文件，我可以轻松地生成数组的PCollection，但是我现在需要执行的操作类似于python函数:我想要一个从0到n-1的PCollection，其中每个元素i都包含跨文件的所有x_i的数组

浏览 3提问于2016-10-27得票数 1

回答已采纳

2回答

如何在apache中实现管道语法？

、

我现在正在学习apache beam，出于好奇，我想问以下问题。如果有人能教育我，给我指点代码的参考，我很感激。谢谢你，余

浏览 1提问于2019-04-23得票数 1

回答已采纳

1回答

在Apache梁中重命名BigQuery柱

、、、、

我尝试在Python语言中重命名Apache Beam Pipeline中的bigquery行，如下面的示例所示:在col1.2中将1个PCollection重命名为col1，在Col2.2中重命名为如何正确应用筛选器以获得包含重命名行的第二个PCollection？() as pipeline: bq_source

浏览 10提问于2020-04-09得票数 1

1回答

试图从Dataflow管道将CSV文件写入时出错

、、、、

我正在构建一个Dataflow管道，它从云存储桶中读取CSV文件(包含250,000行)，修改每一行的值，然后将修改后的内容写入同一个存储桶中的新CSV。使用下面的代码，我可以读取和修改原始文件的内容，但是当我试图在GCS中写入新文件的内容时，会出现以下错误：import apache_beam as beam from apache_

浏览 6提问于2022-01-12得票数 0

回答已采纳

1回答

python中的Apache束:如何触发空窗口的警报

、、

我正在处理用python编写的Apache管道中的分析点击率。我使用的是10分钟的FixedWindows，当窗口为空时，我希望触发一个警告(例如，使用Cloud /Sub)。到目前为止，我所做的是： beam.window.FixedWindows问

浏览 1提问于2018-10-25得票数 0

回答已采纳

1回答

如何为Apache SpecificRecordBase的所有子类选择一个编码器？

、、、、

为了简化我的问题，假设我有两种以Avro格式生成的元素，它们都有自己的字段： .... ...管道将读取输入Kafka中的元素，处理元素，并将处理后的元素放入输出Kafka中，如下所示： Pipeline pipeline = Pipeline.create

浏览 14提问于2020-03-02得票数 0

回答已采纳

2回答

如何在Apache Beam中为复合变换提供参数？

、

我使用的是Apache光束的Python SDK。我有几个转换步骤，并希望使它们可重用，这使我可以编写一个自定义复合转换，如下所示： class MyCompositeTransform(beam.PTransform): result = (pcoll | 'Step 1' >> beam.Map(l

浏览 23提问于2018-12-19得票数 4

1回答

Beam中GCS中的ReadFromPubSub gz文件失败

、、、、

我们尝试将GCS数据以公开的方式加载到梁中。一旦有新的数据上传到GCS，我们可以及时加载数据通过公共在梁。但是，它未能从GCS加载数据。我的管道是 def __int__(self): events = p | "ReadPubSub" >> beam<

浏览 2提问于2019-08-14得票数 0

回答已采纳

1回答

从Apache读取CSV并写入BigQuery

、、、

问题是，我在创建一个与代码工作良好的PCollection时遇到了困难。我正在学习教程以供参考。import unicode from apache_beam.io import ReadFromText, ReadAllFromTextfrom apache_beam.io import WriteToText from apache_beam</em

浏览 0提问于2019-04-22得票数 1

回答已采纳

2回答

用编写每个窗口的唯一拼花文件

、、、、

我试图用apache将从kafka消费者到google云存储的消息通过30秒的 windows传输到谷歌云存储。使用beam_nuggets.io阅读卡夫卡的主题。您可以看到我的代码如下：from apache_beam.transforms.trigger import AfterAny, AfterCount, After

浏览 3提问于2021-10-18得票数 2

2回答

运行光束管道时，'PBegin‘对象没有'windowing’属性

、、、

我正在尝试从Beam python SDK连接NOSQL数据库，并运行sql从表中提取数据。然后使用另一个pardo将输出写入到单独的文件中。class Connector(beam.DoFn): def __init__(self,username,seeds,keyspace,password,datacenter=None):

浏览 1提问于2019-11-05得票数 1

1回答

将pcollection的每一行拆分为多个pcollection？

、

在做了一些处理和按键分组之后，我就有了如下所示的数据集。现在，我需要对数据的每一行进行一些处理，以获得下面的输出。我试过平面图，它真的很慢，因为“值”列表的长度可以任意长。我想我可以将每一行分割成单独的pcollections，并行处理，然后将它们平铺在一起。如何将每一行分割成不同的pcollection？如果这不可行，还有其他方法可以加快计算速度吗？

浏览 1提问于2021-03-12得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云