使用Apache光束`GroupByKey`，构造一个新的列-- Python_使用类似regEx的switch-case向python DataFrame添加一个新列_如何使用python的list添加一个新的列，并找到元素之间的对应关系？ - 腾讯云开发者社区

python、json、csv、apache-beam、apache-beam-io

通过这个问题：How to group data and construct a new column - python pandas?，我知道了如何使用pandas对多列进行分组并构造一个新的唯一id，但是如果我想在Python中使用Apache beam来实现该问题中描述的相同功能，我如何实现它，然后将新数据写入换行符分隔的JSON格式文件(每行都是一

浏览 14提问于2021-08-15得票数 0

回答已采纳

2回答

Google数据流中的groupby计数

google-cloud-dataflow、apache-beam

我的Google云存储中有以下内容__________________我的管道输出应该是这样的首先我使用了groupByKey

浏览 1提问于2017-12-05得票数 1

2回答

TypeError: Receiver()不带参数

python、apache-beam

我正在尝试在Python上学习apache beam，但我的示例都不起作用。import apache_beam as beam File "C:\ProgramData\Anaconda3\lib\site-packages\apache_beam\pipeline.py",

浏览 0提问于2020-02-04得票数 0

2回答

我正在尝试使用apache trying的beam.GroupBy(...)构造，但遇到了一个问题，因为我不知道如何编码一个标准的python datetime.date。以下是演示该问题的简化代码块。learn.py 导致错误的结果： WARNING:apache_beam.coders.coder_impl:Using fallback deterministic coder for type&

浏览 28提问于2021-10-01得票数 3

1回答

如何在apache* parquet java中编写一个分区的拼图文件*

apache-beam、parquet、apache-beam-io

我想用Java编写一个使用Apache光束的分区拼图文件。数据是从Kafka读取的，我希望文件每小时有一个新的分区。时间戳列存在于数据中。

浏览 16提问于2021-10-11得票数 0

1回答

Apache光束可以检测到Spark和Pandas这样的Parquet文件的模式(列名)吗？

google-cloud-storage、google-cloud-dataflow、apache-beam、parquet、apache-beam-io

我是新手，我来自Spark world，那里的API是如此丰富。语言是Python。存储系统是Google Cloud Storage，Apache光束作业必须在Dataflow中运行。仅供参考，我已经按照中的建议尝试了以下方法 from

浏览 11提问于2020-02-12得票数 0

回答已采纳

2回答

如何在python中比较同一个PCollection中两个key的所有值？

python、google-cloud-dataflow、apache-beam

我不熟悉Apache光束/dataflow。我正在Apache Beam中读取一个BigQuery表，我想通过两个不同的列进行分组，并比较两个不同键的所有值。我创建了一个包含两个不同列(ID、Date)的元组作为键。，看看P_id的位置是否发生了变化，然后在表"status“中添加另一列True。所以我的新表格应该如下所示我

浏览 16提问于2020-02-13得票数 0

回答已采纳

2回答

在Python中以数据流的形式将动态目标写入云存储

python-2.7、google-cloud-storage、google-cloud-dataflow、apache-beam、apache-beam-io

我试图从云存储中的一个大文件中读取，并根据给定的字段对它们进行分片。谢谢你，一清

浏览 0提问于2018-02-16得票数 2

1回答

如何使用Python通过ApacheBeam连接到Oracle数据库？

python、oracle、apache-beam

import apache_beam as beam |beam.Map(print)当我运行上面的代码时，出现了以下错误： ERROR:apache_beam.utils.subprocess_server:Starting job service with ['java', '

浏览 1提问于2021-07-14得票数 0

3回答

如何比较2个巨大的CSV文件，基于运行时指定的列名并忽略一些列？

python、csv、dictionary、optimization、compare

我需要写一个程序，比较2 CSV文件，并报告在excel文件中的差异。它基于一个主键(有时是几个辅键)比较记录，而忽略指定的其他列的列表。所有这些参数都是从excel中读取的。我已经写了一个代码来做这件事，对于小文件来说工作得很好，但是对于大文件来说性能非常差(一些要比较的文件有超过200K行)。当前逻辑使用csv.DictReader读取文件。我逐行遍历第一个文件的行，每次都在

浏览 1提问于2020-01-05得票数 1

1回答

Google Cloud Storage Concurrency with Python* / Apache Beam？*

python、google-cloud-storage、apache-beam

我正在使用Python中的Apache光束构建一个管道，并且我需要避免在Google Cloud Storage中写入文件时出现竞争条件。下面的链接介绍了如何通过gsutil在谷歌云存储中使用并发控制。有没有人知道有没有办法用Python或Apache Beam Python SDK来完成同样的事情？

浏览 2提问于2018-08-31得票数 0

2回答

Apache Beam上用于慢速数据(大间隔)的SlidingWindows

java、google-cloud-dataflow、apache-beam、sliding-window

我正在使用数据集，其中每15分钟发布一次新数据。当有新的数据可用时，它表示记录比“实时”(，查找_last_updt)减少了10-15分钟。因此，我可以获得新数据的时间间隔是“固定的”(每15分钟)，尽管时间戳上的时间间隔略有变化。我正在尝试在Dataflow (Apache光束)上使用这些数据，为此，我使用了滑动窗口。我的想法是收集并处理4个连续的</

浏览 2提问于2018-05-29得票数 6

2回答

用编写每个窗口的唯一拼花文件

python-3.x、apache-kafka、google-cloud-storage、apache-beam、software-design

我试图用apache将从kafka消费者到google云存储的消息通过30秒的 windows传输到谷歌云存储。使用beam_nuggets.io阅读卡夫卡的主题。您可以看到我的代码如下：from apache_beam.transforms.trigger import AfterAny, AfterCount，为每条消息生成一个新的parq

浏览 3提问于2021-10-18得票数 2

1回答

Dataflow中的自定义Apache* Beam Python版本*

python、google-cloud-dataflow、apache-beam

我想知道是否有可能有一个自定义的阿帕奇光束Python版本运行在谷歌数据流。在公共存储库中不可用的版本(在撰写本文时: 0.6.0和2.0.0)。例如，来自Apache Beam官方存储库的HEAD版本，或与此相关的特定标签。我知道打包定制包(例如私有的本地包)的可能性，正如官方中所描述的那样。这里有关于如何为其他一些脚本做这件事的答案是。这上面甚至有一个GIST的</e

浏览 16提问于2017-07-27得票数 4

回答已采纳

1回答

谷歌云数据流:在GroupByKey之后写入BigQuery会导致延迟，但CoGroupByKey不会。为什么？

python、google-cloud-platform、google-bigquery、google-cloud-dataflow、apache-beam

在运行Google Cloud Dataflow作业时，我发现了一个奇怪的情况。在运行GroupByKey转换，然后使用WriteToBigQuery转换将组中的每个项目写入BigQuery之后，写入速度大约为每秒500-600条记录：然后，我运行完全相同的作业，并使用CoGroupByKey而不是GroupByKey，写入速度上升到50000-100000条记录/秒：我不确定是不是GroupByKey</em

浏览 0提问于2018-08-10得票数 1

2回答

是否可以在不具有本地所有依赖项的情况下运行/序列化数据流作业？

python、google-cloud-dataflow、apache-beam

我已经使用Apache光束为Google Cloud Dataflow创建了一个管道，但我不能在本地拥有Python依赖项。但是，远程安装这些依赖项是没有问题的。在我的本地(开发)环境中，有没有可能在不执行Python代码的情况下运行作业或创建模板？

浏览 1提问于2019-09-27得票数 0

1回答

spark dataframe reducebykey (具有非唯一键值)和自定义值操作

apache-spark、apache-spark-sql、spark-dataframe

我有Spark 1.5.0的代码。getConcatenated(col("text1"), col("text2"), col("weight"))).select("user_id","description") 现在，我想在这个有两列(都是字符串)的DF上做一个redueByKey操作。我的user_ids不是唯一的，我想连接给定user_id的所有值/描

浏览 0提问于2016-06-23得票数 0

2回答

Scio:使用发布/订阅作为集合源时，groupByKey不起作用

apache-beam、spotify-scio

我将程序的源代码从文本文件更改为云发布/订阅，如下所示。我将莎士比亚文件的数据发布到发布/订阅上，它确实可以正确获取，但.groupByKey之后的转换似乎都不起作用。_.split("[^a-zA-Z']+").filter(_.nonEmpty)) .withWindow[IntervalWindow] .groupByKey

浏览 2提问于2017-06-19得票数 2

2回答

在星火中“by”和“`union`”后面跟着“`groupByKey`”的区别？

join、apache-spark、group-by、union、pyspark

我找不到一个很好的理由：应有别于：但是，后者给了我一个错误，而前者没有。如果绝对需要的话，我可以提供一个例子，但是我想从函数抽象的角度来了解。我问过的人都不能给我一个很好的解释。

浏览 2提问于2015-12-13得票数 0

回答已采纳

1回答

在apache* apache中使用KafkaIO时出错*

python、ubuntu、apache-kafka、apache-beam、apache-beam-io

我正在使用阿帕奇光束DirectRunner从卡夫卡主题加载数据。我的代码如下： (pipeline| ReadFromKafka(consumer_config=conf,topics=['topic1'])我使用下面的命令来运行这段代码： pyth

浏览 1提问于2020-07-08得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云