腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Apache
Beam2.9
使用
writeDynamic
将
Avro
文件
写入
到
GCS
上
的
多个
目录
apache-beam
我正在
使用
Beam2.9.0
将
Avro
文件
写入
多个
目录
。我有一些"Event“类,它有一个名为"Id”
的
字符串字段。我想将它们按"Id“分组,并
写入
到
它们各自
的
目录
中。<String, Five9Event>
writeDynamic
() .by((SerializableFunction&l
浏览 15
提问于2019-02-01
得票数 0
2
回答
谷歌数据流作业从Pubsub读取并
写入
GCS
的
速度非常慢,(WriteFiles/WriteShardedBundlesToTempFiles/GroupIntoShards)耗时太长
java
、
java-8
、
apache-beam
、
google-dataflow
目前我们有一个数据流作业,它从pubsub读取并
使用
FileIO.
writeDynamic
将
avro
文件
写入
GCS
,当我们以每秒10000个事件进行测试时,由于pubsub非常慢,无法更快地处理。下面是我们用来编写
的
代码片段。我们如何改进? PCollection<Event> windowedWrites = input.apply("Global Window", Window.<EventDestinatio
浏览 40
提问于2020-09-12
得票数 0
3
回答
Apache
光束GCP在动态创建
的
目录
中上传
Avro
google-cloud-platform
、
pipeline
、
dataflow
、
apache-beam
我想在GCP中创建一个流式
Apache
光束管道,它从Google Pub/Sub读取数据并将其推送到
GCS
。我有一个可以从发布/订阅中读取数据
的
位。我的当前代码看起来就像这样(从GCP
Apache
beam模板中挑选出来
的
) pipeline.apply("Read PubSub Events", PubsubIO.readMessagesWithAttributes-04-28T09:00:00.000Z-2020-04-28T09:02:00.000Z-p
浏览 25
提问于2020-04-28
得票数 1
回答已采纳
1
回答
Apache
:根据键
将
键值、值对
写入
文件
java
、
apache-beam
我希望通过在
Apache
中
使用
FileIO和
writeDynamic
() (
使用
Java)
将
键、值对
写入
GCS
中
的
文本
文件
。到目前为止,我正在读取来自Big
的
数据,将其转换为键值对,然后尝试
使用
FileIO和
writeDynamic
()
将
每个键
的
值
写入
一个
文件
中。<String, KV<String
浏览 2
提问于2019-11-06
得票数 0
回答已采纳
1
回答
Apache
Camel Kafka连接器:用
Avro
格式写到
GCS
apache-camel
、
apache-kafka-connect
我想消费来自Kafka
的
事件,这是在Protobuf,并写到
GCS
与
Apache
Camel Kafka连接器。我
使用
Protobuf转换器,因此事件同时具有值和模式。我是否有可能以
Avro
格式(带有模式
的
GenericDatumWriter)
将
这些事件
写入
Google? 我还想将事件分批
到
更大
的
文件
中。我无法找到在
Avro
中编写
文件
的
例子,任何
浏览 5
提问于2021-12-10
得票数 1
1
回答
如何
使用
Apache
Beam FileIO
writeDynamic
从字节数组输出音频
文件
?
google-cloud-dataflow
、
apache-beam
我们正在
使用
Apache
光束来处理从pubsub源
到
GCS
接收器
的
具有动态
文件
名
的
流数据。我们可以写文本
文件
,但不能写wav
文件
。我们可以写出
使用
StringUtf8Coder
的
字节数组字符串(linear16 wav编码),但
使用
ByteArrayEncoder时会出现编译错误 //这行得通: pipelineBeginStage<String, Kam
浏览 24
提问于2019-06-23
得票数 0
1
回答
数据融合:
GCS
创建创建
文件
夹而不是对象
google-cloud-data-fusion
、
cdap
我正在尝试
使用
Data Fusion
的
GCS
create插件创建一个
GCS
对象(
文件
)。 但它正在创建一个
文件
夹。如何创建
文件
而不是
文件
夹??
浏览 2
提问于2020-08-31
得票数 0
2
回答
如何
使用
spark
将
avro
写入
多个
输出
目录
apache-spark
、
avro
、
spark-avro
嗨,有一个关于
使用
MultipleTextOutputFormat
将
文本数据
写入
多个
输出
目录
的
主题。 我会问是否有类似的方法
将
avro
数据
写入
多个
目录
。我想要
的
是
将
avro
文件
中
的
数据
写入
不同
的
目录
(基于时间戳字段,时间戳中
的
同一天转到同
浏览 9
提问于2016-11-25
得票数 5
回答已采纳
1
回答
当从Dataflow
写入
时,我如何更改桶或前缀?
google-cloud-dataflow
在流数据流管道中,如何动态地更改
写入
云存储
的
存储桶或数据前缀? 例如,我希望
将
数据存储
到
GCS
上
的
文本或
avro
文件
,但前缀中包含处理时间。更新:这个问题是无效
的
,因为在
写入
Google
的
流数据流中没有接收器可以
使用
。
浏览 3
提问于2016-11-10
得票数 0
回答已采纳
1
回答
生成特定包中
的
AVRO
类
java
、
avro
我有两个具有匹配名称空间和字段名
的
.avsc
文件
。生成时,从第一个模式生成
的
类将被来自第二个模式
的
类覆盖。是否有一种方法可以在特定
目录
中生成类,但只用于其中一个.avsc
文件
?如果我在
avro
模式中更改名称空间,那么一切都很好,但是Kafka消息没有被读取,我得到了以下错误: 显然,因为
avro
更改后
的
名称空间是com.package.test_claim.TestClaim
浏览 4
提问于2021-06-30
得票数 0
回答已采纳
1
回答
在AI笔记本中
使用
AVRO
编写
GCS
python-3.x
、
google-cloud-platform
、
google-cloud-storage
、
avro
、
google-cloud-datalab
摘要:2)在同一个笔记本中,如何调用要上传到Bigquery中
的
新数据集
的
对象我确实有一个大
到
无法在本地下载它
的
对象,然后将它写在
GCS
-> BQ
上
。然而,这个对象还不够大,无法
使用
Apache
进行处理。我用烧烤魔法把它带进了笔记本。在进行了一些转换之后,我想将一个对象发送回我
的
数据存储库。因此,
浏览 3
提问于2019-11-20
得票数 0
回答已采纳
2
回答
有效地
将
avro
记录
写入
avro
文件
avro
如何有效地
将
新
的
avro
记录添加到现有
avro
文件
中。我
的
avro
文件
将
继续增长
的
大小,我不想打开
文件
到
memory.Could你请告诉我们,我们可以如何有效地实现这一点。
浏览 1
提问于2015-11-23
得票数 0
1
回答
Parquet大容量格式
的
压缩
使用
apache-flink
、
parquet
、
flink-streaming
由于
Apache
的
1.15版本,您可以
使用
压缩功能将
多个
文件
合并到一个
文件
中。 如何
使用
批量Parquet格式
的
压缩?RecordWiseFileCompactor.Reader
的
现有实现(DecoderBasedReader和ImputFormatBasedReader)似乎不适合Parquet。此外,我们找不到任何
的
例子,压缩Parquet或其他散装格式。
浏览 49
提问于2022-06-22
得票数 2
1
回答
BQ加载不同架构
的
Avro
文件
,仅添加字段
java
、
google-bigquery
、
google-cloud-dataflow
、
avro
、
apache-beam
上下文:我们有一个Dataflow作业,它用每周变化
的
模式
将
Avro
文件
写入
GCS
(仅增加字段)。这意味着,在
GCS
前缀下,我们有一堆具有不同模式
的
Avro
文件
,很可能在任何给定
的
时间都有2个模式。有关更多细节,请参见 post中
的
上下文部分。 问题:根据,当
将
包含
多个
模式
的
Avro
文件
加载
浏览 2
提问于2020-01-24
得票数 3
1
回答
阿帕奇光束:在启动ImportTransform数据流模板之前等待AvroIO
写入
步骤完成
google-cloud-dataflow
、
apache-beam
、
dataflow
我正在
使用
apache
创建一个管道,基本
上
是读取InputFile,转换为
Avro
,
将
AvroFile
写入
存储桶,然后
使用
数据流模板
将
这些
avro
文件
导入
到
扳手 我面临
的
问题是,最后一步(
将
Avro
文件
导入数据库)是在前一步(
将
Avro
文件
写入
存储桶)完成之
浏览 9
提问于2021-07-06
得票数 0
1
回答
Hadoop在
avro
工具
上
的
错误
hadoop
、
avro
我试图
使用
avro
工具连接HDFS
目录
中
的
多个
avro
文件
。我遵循
的
方法是问题。<init>(FileOutputStream.java:171) atorg.
apache
.
avro
.tool.ConcatTool.run(ConcatTool
浏览 1
提问于2016-06-03
得票数 0
4
回答
如何
写入
运行时定义
的
文件
名?
apache-beam
我想
写入
一个gs
文件
,但我不知道编译时
的
文件
名。它
的
名称基于在运行时定义
的
行为。我该如何继续呢?
浏览 3
提问于2018-01-30
得票数 3
1
回答
如何处理连接
的
Avro
文件
?
apache-spark
、
bigdata
、
avro
、
amazon-kinesis
、
amazon-kinesis-firehose
我正在以
Apache
格式存储从我
的
web应用程序生成
的
数据。这些数据被编码并发送到,它每300秒钟左右缓冲并
写入
亚马逊
的
S3。由于我有
多个
web服务器,这会导致
多个
Avro
文件
被发送到Kinesis,并将它们连接起来并定期
写入
S3。当我从S3获取
文件
时,我不能
使用
普通
的
Avro
工具来解码它,因为它实际
上
是一个
文件</em
浏览 4
提问于2015-11-25
得票数 5
回答已采纳
2
回答
是否有用于“发布/订阅
到
云扳手”
的
GCP数据流模板
google-cloud-dataflow
、
google-cloud-spanner
我正在尝试找出是否有任何GCP数据流模板可用于“发布/订阅
到
云扳手”
的
数据摄取。我发现已经有一个默认
的
GCP数据流模板可用于示例-“云发布/订阅
到
BigQuery”。
浏览 27
提问于2019-03-02
得票数 0
1
回答
用Pandas读写csv和其他
文件
格式
到
python-3.x
、
pandas
、
google-cloud-platform
、
google-cloud-storage
dict = pickle.load(open(self.abs_path+self.kw_ns.get('Paths','dictionary'), 'rb')) 我既不能读取csv,也不能读取泡菜
文件
,因为它抛出
的
文件
没有找到错误。任何关于如何完成它
的
指示
浏览 3
提问于2020-01-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Apache Spark 2.4 内置的 Avro 数据源实战
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
过去一年,Spotify最大一次数据流优化实践
带着目的去阅读——Hadoop权威指南
深入理解Kafka Connect:转换器和序列化
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券