腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
Apache
Beam
Python
SDK
将
文件
写入
Parquet
中
的
动态
目标
python
、
google-cloud-dataflow
、
apache-beam
、
parquet
、
pyarrow
我正在尝试通过WriteToFiles类
使用
dynamic destinations编写拼图
文件
。我目前正在尝试
使用
pyarrow库来编写一个
Parquet
接收器,它可以以分布式
的
方式管理写操作,类似于WriteToParquet PTransform
的
方式。,据我所知,不可能将无界
的
PCollections编写为
Parquet
文件
,因此,如果我尝试
使用
下面的类按记录编写,则在关闭
的
文件</
浏览 17
提问于2021-02-04
得票数 1
回答已采纳
1
回答
谷歌云数据流-来自PubSub消息
的
Pyarrow架构
python
、
google-cloud-dataflow
、
apache-beam
、
google-cloud-pubsub
、
pyarrow
我正在尝试
使用
Google Cloud Dataflow (
Python
SDK
)
将
Google PubSub消息
写入
Google Cloud Storage。消息以json格式进入PubSub,我必须定义一个模式,以便将它们
写入
Google Cloud Storage
中
的
parquet
格式。 根据其他用户
的
建议,我从特别研究和源代码开始着手这项任务。第一个不是我想要做
的
,因为它将更改应用到json
浏览 3
提问于2020-07-23
得票数 0
2
回答
写入
拼板错误
apache-beam
、
parquet
、
apache-beam-io
我正在
使用
Apache
和Java。我正在尝试读取一个csv
文件
,并
使用
预部署
的
Spark上
的
SparkRunner,
使用
本地模式将它
写入
parquet
格式。在DirectRunner
中
,一切都很好,但是SparkRunner根本无法工作。我正在
使用
maven阴影插件来构建一个胖jat。<init>(Lorg/
apache
/
parquet</e
浏览 0
提问于2019-08-07
得票数 0
回答已采纳
1
回答
尝试
使用
Apache
Beam
进行读/写时,“找不到方案s3
的
文件
系统”
amazon-s3
、
kotlin
、
apache-beam
我第一次开始在一个项目中
使用
Apache
Beam
,我正在尝试做
的
是从亚马逊网络服务上
的
电子病历集群读取和
写入
S3
的
Parquet
文件
。(FileSystems.java:459)at org.
apache
.
beam</em
浏览 6
提问于2018-08-27
得票数 1
1
回答
如何创建从postgres到
parquet
的
管道?
java
、
google-cloud-dataflow
、
apache-beam
我们正在创建一个数据流管道,我们将从postgres读取数据并将其
写入
一个拼花
文件
。我们
使用
org.
apache
.
beam
.
sdk
.io.jdbc读取
文件
,
使用
org.
apache
.
beam
.
sdk
.io.
parquet
包
写入
文件
。ParquetIO.Sink允许您将PCollection of GenericRecord
写入
<
浏览 1
提问于2019-06-26
得票数 2
回答已采纳
2
回答
我正试图
使用
assumeRole通过FileIO和ParquetIO来给亚马逊ParquetIO写信。
java
、
amazon-web-services
、
file-io
、
parquet
、
apache-beam-io
return credentialsProvider; return new ProfileCredentialsProvider();步骤2:
将
凭据设置为管道credentials.getCredentials().getAWSAccessKeyId(), credentials.getCredentials().getAWSAccessKeyId()))); .withDestinationCo
浏览 0
提问于2020-06-17
得票数 2
回答已采纳
1
回答
使用
读取
Parquet
文件
而不提供模式
java
、
apache-beam
、
apache-beam-io
org.
apache
.
beam
.
sdk
.io.
parquet
.ParquetIO.readFiles方法似乎需要传入一个模式。 如果我试图用不同
的
模式读取多个
Parquet
文件
,该怎么办?
浏览 1
提问于2019-11-25
得票数 0
1
回答
从BigQuery导出
的
Firebase事件
firebase
、
google-cloud-platform
、
analytics
、
data-export
是否有一种
将
火基事件导出到(例如
Parquet
格式)
的
推荐方法?如果我
将
数据导出到BigQuery,那么
将
数据一致推送到
的
最佳方法是什么?原因是我有处理云存储
中
的
拼花
文件
的
daraproc作业,我希望我
的
防火墙数据能够以同样
的
方式访问。
浏览 2
提问于2020-05-13
得票数 1
回答已采纳
1
回答
Dataflow
中
的
自定义
Apache
Beam
Python
版本
python
、
google-cloud-dataflow
、
apache-beam
我想知道是否有可能有一个自定义
的
阿帕奇光束
Python
版本运行在谷歌数据流。在公共存储库
中
不可用
的
版本(在撰写本文时: 0.6.0和2.0.0)。例如,来自
Apache
Beam
官方存储库
的
HEAD版本,或与此相关
的
特定标签。但我还没有
浏览 16
提问于2017-07-27
得票数 4
回答已采纳
1
回答
Apache
写入
java
、
java-8
、
apache-beam
无法
使用
Apache
Beam
JavaSDK
写入
PubSub。我正在尝试
使用
beam
从PubSub
中
读取数据,进行处理,然后
将
数据
写入
PubSub主题,但我无法找到如何
写入
PubSub
的
工作示例。 是否有人可以帮助适当
的
转换,以
写入
PubSub主题。<java.lang.String,org.
apache
.
beam
.<e
浏览 0
提问于2017-11-14
得票数 2
2
回答
无法从
Apache
束
中
的
avro-
parquet
模式读取日期格式列(int96类型)。
apache-beam
、
apache-beam-io
当读取具有date列
的
拼花
文件
时,我
将
面临以下异常。我
使用
的
是梁-sdks java-io* 2.11.0和拼花*-1.10,请帮我做同样
的
事情。 at org.
apache
.
parquet
.avro.AvroSch
浏览 1
提问于2019-04-24
得票数 0
2
回答
如何
将
SCollection元素保存到不同
的
BigQuery表
中
?
google-cloud-dataflow
、
apache-beam
、
spotify-scio
我需要根据SCollection元素
的
时间戳将它们保存到不同
的
每小时BigQuery表
中
。我试过以下方法- 按(TableName, Iterable[TableRow])对元素进行分组,然后
使用
BigQueryClient实例
将
每个Iterable[TableRow]保存到各自
的
表
中
。创建一个SCollection[TableName, PCollection[TableRow]],然后
使用
BigQueryIO.Write
将
每个
浏览 0
提问于2017-06-19
得票数 0
2
回答
当我
将
environment_type设置为“`PROCESS`”时,
Beam
SDK
线束仍然试图启动对接器
apache-kafka
、
apache-beam
根据 "--runner=portableRunner", "--
sdk
_worker_parallelism", "--environment_config={\&
浏览 18
提问于2022-06-02
得票数 1
回答已采纳
1
回答
Google Cloud Storage Concurrency with
Python
/
Apache
Beam
?
python
、
google-cloud-storage
、
apache-beam
我正在
使用
Python
中
的
Apache
光束构建一个管道,并且我需要避免在Google Cloud Storage
中
写入
文件
时出现竞争条件。下面的链接介绍了如何通过gsutil在谷歌云存储中
使用
并发控制。 有没有人知道有没有办法用
Python
或
Apache
Beam
Python
SDK
来完成同样
的
事情?
浏览 2
提问于2018-08-31
得票数 0
1
回答
束流管道(PY)输出不
写入
本地主机磁盘
python-2.7
、
google-cloud-dataflow
、
apache-beam
我正在学习
Apache
中
的
窗口&触发概念,目的是: 每5秒
将
传入消息
写入
本地主机磁盘,每5秒固定窗口间隔。问题:没有输出被
写入
本地主机磁盘(管道确实创建了一个波束团队
文件
夹,并在其中
写入
了一些
文件
,但是
目标
目标
中
没有output.csv,每5秒编写一次)。运行
apache
-
beam
=2.9.0,
浏览 0
提问于2019-01-02
得票数 2
1
回答
pip搜索显示
apache
-
beam
2.9,但是pip安装
apache
-
beam
只安装
apache
-
beam
2.2
pip
、
apache-beam
在我新
的
虚拟环境里。我跑我得到了然后我跑了pip list
apache
-
beam
2.2.0
python
-m
apache
_
beam</
浏览 0
提问于2019-01-27
得票数 0
回答已采纳
1
回答
如何从
beam
写入
HDFS?
apache-beam
、
apache-beam-io
我正在尝试编写一个光束管道,它
使用
SparkRunner运行,从本地
文件
读取,并
写入
HDFS。; import org.
apache
.
beam
.
sdk
.io.FileBasedSink; import org.
apache
.
beam
.
sdk
.io.TextIO:它读取本地testInput
文件</e
浏览 1
提问于2018-11-03
得票数 1
1
回答
在flink集群上远程调试
apache
beam
作业
scala
、
apache-flink
、
apache-beam
、
flink-streaming
、
spotify-scio
文件
格式
写入
Alluxio数据湖。我正在
使用
Spotify
的
scio在Scala
中
编写这项工作。)) .toSinkTap(sink) 从异常
中
,我可以看到源路径和输出路径应该具有相同
的
URI方案,但是我不知道这是如何发生
的
,因为我
使用
了一个alluxio路径作为输出目录。在alluxio输出目录
中
创建了一些临时目录,但在WindowDuration之后,当创建输出
文件
时,会发生此异常。
浏览 24
提问于2020-09-01
得票数 0
3
回答
Apache
光束是否需要互联网来运行GCP数据流作业
python
、
google-cloud-platform
、
offline
、
apache-beam
、
dataflow
代码中断是因为正在尝试代表
apache
-
beam
进行http连接。以下是我在运行代码时收到
的
错误消息。(connect timeout=15)')': /simple/
apache
-
beam
/ Could not fi
浏览 0
提问于2019-05-18
得票数 0
1
回答
当在google数据流上运行
apache
波束时,日文字符被损坏。
google-cloud-dataflow
、
apache-beam
、
apache-beam-io
我在google数据流上运行
apache
beam
管道。它从GCS桶
中
读取数据,并在处理后
写入
GCS桶。这条管道处理日本数据。在堆栈驱动程序日志
中
,日语字符正在正确显示。但是当我看到o/p桶
中
的
数据时,它就被破坏了。因此,我主要是在想,或者是在向GCS
写入
数据时,编码器没有设置,或者我们必须对GCS
文件
格式进行更改。解决这个问题需要帮助。我尝试过在束流管道
中
设置编码。此外,在运行pipleine时,我尝试<
浏览 5
提问于2019-10-22
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
想成为大数据开发工程师,你必须掌握的开发流程图是这样的
Uber是如何低成本构建开源大数据平台的?
Pandas 2.0正式版发布:Pandas 1.5,Polars,Pandas 2.0 速度对比测试
教程:Apache Spark SQL入门及实践指南!
Java近期新闻: JReleaser 1.2、Spring Batch、PrimeFaces、Quarkus、JobRunr与Apache Beam
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券