腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Apache
光束
`
GroupByKey
`,
构造
一个
新
的
列
--
Python
python
、
json
、
csv
、
apache-beam
、
apache-beam-io
通过这个问题:How to group data and construct a new column -
python
pandas?,我知道了如何
使用
pandas对多
列
进行分组并
构造
一个
新
的
唯一id,但是如果我想在
Python
中
使用
Apache
beam来实现该问题中描述
的
相同功能,我如何实现它,然后将
新
数据写入换行符分隔
的
JSON格式文件(每行都是
一
浏览 14
提问于2021-08-15
得票数 0
回答已采纳
2
回答
Google数据流中
的
groupby计数
google-cloud-dataflow
、
apache-beam
我
的
Google云存储中有以下内容__________________我
的
管道输出应该是这样
的
首先我
使用
了
groupByKey
浏览 1
提问于2017-12-05
得票数 1
2
回答
TypeError: Receiver()不带参数
python
、
apache-beam
我正在尝试在
Python
上学习
apache
beam,但我
的
示例都不起作用。import
apache
_beam as beam File "C:\ProgramData\Anaconda3\lib\site-packages\
apache
_beam\pipeline.py",
浏览 0
提问于2020-02-04
得票数 0
2
回答
如何在
apache
中
使用
datetime.date值?
python
、
typeerror
、
apache-beam
我正在尝试
使用
apache
trying
的
beam.GroupBy(...)
构造
,但遇到了
一个
问题,因为我不知道如何编码
一个
标准
的
python
datetime.date。以下是演示该问题
的
简化代码块。learn.py 导致错误
的
结果: WARNING:
apache
_beam.coders.coder_impl:Using fallback deterministic coder for type&
浏览 28
提问于2021-10-01
得票数 3
1
回答
如何在
apache
parquet java中编写
一个
分区
的
拼图文件
apache-beam
、
parquet
、
apache-beam-io
我想用Java编写
一个
使用
Apache
光束
的
分区拼图文件。数据是从Kafka读取
的
,我希望文件每小时有
一个
新
的
分区。时间戳
列
存在于数据中。
浏览 16
提问于2021-10-11
得票数 0
1
回答
Apache
光束
可以检测到Spark和Pandas这样
的
Parquet文件
的
模式(列名)吗?
google-cloud-storage
、
google-cloud-dataflow
、
apache-beam
、
parquet
、
apache-beam-io
我是新手,我来自Spark world,那里
的
API是如此丰富。语言是
Python
。存储系统是Google Cloud Storage,
Apache
光束
作业必须在Dataflow中运行。仅供参考,我已经按照中
的
建议尝试了以下方法 from
浏览 11
提问于2020-02-12
得票数 0
回答已采纳
2
回答
如何在
python
中比较同
一个
PCollection中两个key
的
所有值?
python
、
google-cloud-dataflow
、
apache-beam
我不熟悉
Apache
光束
/dataflow。我正在
Apache
Beam中读取
一个
BigQuery表,我想通过两个不同
的
列
进行分组,并比较两个不同键
的
所有值。我创建了
一个
包含两个不同
列
(ID、Date)
的
元组作为键。,看看P_id
的
位置是否发生了变化,然后在表"status“中添加另一
列
True。所以我
的
新
表格应该如下所示 我
浏览 16
提问于2020-02-13
得票数 0
回答已采纳
2
回答
在
Python
中以数据流
的
形式将动态目标写入云存储
python-2.7
、
google-cloud-storage
、
google-cloud-dataflow
、
apache-beam
、
apache-beam-io
我试图从云存储中
的
一个
大文件中读取,并根据给定
的
字段对它们进行分片。谢谢你,一清
浏览 0
提问于2018-02-16
得票数 2
1
回答
如何
使用
Python
通过ApacheBeam连接到Oracle数据库?
python
、
oracle
、
apache-beam
import
apache
_beam as beam |beam.Map(print)当我运行上面的代码时,出现了以下错误: ERROR:
apache
_beam.utils.subprocess_server:Starting job service with ['java', '
浏览 1
提问于2021-07-14
得票数 0
3
回答
如何比较2个巨大
的
CSV文件,基于运行时指定
的
列名并忽略一些
列
?
python
、
csv
、
dictionary
、
optimization
、
compare
我需要写
一个
程序,比较2 CSV文件,并报告在excel文件中
的
差异。它基于
一个
主键(有时是几个辅键)比较记录,而忽略指定
的
其他
列
的
列表。所有这些参数都是从excel中读取
的
。我已经写了
一个
代码来做这件事,对于小文件来说工作得很好,但是对于大文件来说性能非常差(一些要比较
的
文件有超过200K行)。 当前逻辑
使用
csv.DictReader读取文件。我逐行遍历第
一个
文件
的
行,每次都在
浏览 1
提问于2020-01-05
得票数 1
1
回答
Google Cloud Storage Concurrency with
Python
/
Apache
Beam?
python
、
google-cloud-storage
、
apache-beam
我正在
使用
Python
中
的
Apache
光束
构建
一个
管道,并且我需要避免在Google Cloud Storage中写入文件时出现竞争条件。下面的链接介绍了如何通过gsutil在谷歌云存储中
使用
并发控制。 有没有人知道有没有办法用
Python
或
Apache
Beam
Python
SDK来完成同样
的
事情?
浏览 2
提问于2018-08-31
得票数 0
2
回答
Apache
Beam上用于慢速数据(大间隔)
的
SlidingWindows
java
、
google-cloud-dataflow
、
apache-beam
、
sliding-window
我正在
使用
数据集,其中每15分钟发布一次
新
数据。当有
新
的
数据可用时,它表示记录比“实时”(,查找_last_updt)减少了10-15分钟。因此,我可以获得
新
数据
的
时间间隔是“固定
的
”(每15分钟),尽管时间戳上
的
时间间隔略有变化。 我正在尝试在Dataflow (
Apache
光束
)上
使用
这些数据,为此,我
使用
了滑动窗口。我
的
想法是收集并处理4个连续
的</
浏览 2
提问于2018-05-29
得票数 6
2
回答
用编写每个窗口
的
唯一拼花文件
python-3.x
、
apache-kafka
、
google-cloud-storage
、
apache-beam
、
software-design
我试图用
apache
将从kafka消费者到google云存储
的
消息通过30秒
的
windows传输到谷歌云存储。
使用
beam_nuggets.io阅读卡夫卡
的
主题。您可以看到我
的
代码如下:from
apache
_beam.transforms.trigger import AfterAny, AfterCount,为每条消息生成
一个
新
的
parq
浏览 3
提问于2021-10-18
得票数 2
1
回答
Dataflow中
的
自定义
Apache
Beam
Python
版本
python
、
google-cloud-dataflow
、
apache-beam
我想知道是否有可能有
一个
自定义
的
阿帕奇
光束
Python
版本运行在谷歌数据流。在公共存储库中不可用
的
版本(在撰写本文时: 0.6.0和2.0.0)。例如,来自
Apache
Beam官方存储库
的
HEAD版本,或与此相关
的
特定标签。 我知道打包定制包(例如私有的本地包)
的
可能性,正如官方中所描述
的
那样。这里有关于如何为其他一些脚本做这件事
的
答案是。这上面甚至有
一个
GIST
的</e
浏览 16
提问于2017-07-27
得票数 4
回答已采纳
1
回答
谷歌云数据流:在
GroupByKey
之后写入BigQuery会导致延迟,但CoGroupByKey不会。为什么?
python
、
google-cloud-platform
、
google-bigquery
、
google-cloud-dataflow
、
apache-beam
在运行Google Cloud Dataflow作业时,我发现了
一个
奇怪
的
情况。在运行
GroupByKey
转换,然后
使用
WriteToBigQuery转换将组中
的
每个项目写入BigQuery之后,写入速度大约为每秒500-600条记录:然后,我运行完全相同
的
作业,并
使用
CoGroupByKey而不是
GroupByKey
,写入速度上升到50000-100000条记录/秒:我不确定是不是
GroupByKey</em
浏览 0
提问于2018-08-10
得票数 1
2
回答
是否可以在不具有本地所有依赖项
的
情况下运行/序列化数据流作业?
python
、
google-cloud-dataflow
、
apache-beam
我已经
使用
Apache
光束
为Google Cloud Dataflow创建了
一个
管道,但我不能在本地拥有
Python
依赖项。但是,远程安装这些依赖项是没有问题
的
。在我
的
本地(开发)环境中,有没有可能在不执行
Python
代码
的
情况下运行作业或创建模板?
浏览 1
提问于2019-09-27
得票数 0
1
回答
spark dataframe reducebykey (具有非唯一键值)和自定义值操作
apache-spark
、
apache-spark-sql
、
spark-dataframe
我有Spark 1.5.0
的
代码。getConcatenated(col("text1"), col("text2"), col("weight"))).select("user_id","description") 现在,我想在这个有两
列
(都是字符串)
的
DF上做
一个
redueByKey操作。我
的
user_ids不是唯一
的
,我想连接给定user_id
的
所有值/描
浏览 0
提问于2016-06-23
得票数 0
2
回答
Scio:
使用
发布/订阅作为集合源时,
groupByKey
不起作用
apache-beam
、
spotify-scio
我将程序
的
源代码从文本文件更改为云发布/订阅,如下所示。我将莎士比亚文件
的
数据发布到发布/订阅上,它确实可以正确获取,但.
groupByKey
之后
的
转换似乎都不起作用。_.split("[^a-zA-Z']+").filter(_.nonEmpty)) .withWindow[IntervalWindow] .
groupByKey
浏览 2
提问于2017-06-19
得票数 2
2
回答
在星火中“by”和“`union`”后面跟着“`
groupByKey
`”
的
区别?
join
、
apache-spark
、
group-by
、
union
、
pyspark
我找不到
一个
很好
的
理由:应有别于:但是,后者给了我
一个
错误,而前者没有。如果绝对需要的话,我可以提供
一个
例子,但是我想从函数抽象
的
角度来了解。我问过的人都不能给我
一个
很好
的
解释。
浏览 2
提问于2015-12-13
得票数 0
回答已采纳
1
回答
在
apache
apache
中
使用
KafkaIO时出错
python
、
ubuntu
、
apache-kafka
、
apache-beam
、
apache-beam-io
我正在
使用
阿帕奇
光束
DirectRunner从卡夫卡主题加载数据。我
的
代码如下: (pipeline| ReadFromKafka(consumer_config=conf,topics=['topic1'])我
使用
下面的命令来运行这段代码:
pyth
浏览 1
提问于2020-07-08
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python Django知识总结!
Ansys Zemax | 如何使用光学制造全息图修正像差
Apache Flink 社区发布的 Stateful Functions 2.2.0 是什么?
Fuzz自动化Bypass软WAF姿势
HBase高级特性之过滤器
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券