腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
问
:
将
Avro
转
换为
内存
中
的
拼图
、
、
、
我正在接收卡夫卡
的
Avro
唱片。我想把这些记录转换成
拼图
文件。writer = new AvroParquetWriter<>(path, avroSchema, compressionCodecName, blockSize, pageSize); 现在,这将执行
Avro
到Parquet
的
转换,但它会将Parquet文件写入磁盘。我想知道是否有一种更简单
的
方法
将
文件保存在
内存
中
,这样我就不必管理磁盘上
的
浏览 25
提问于2016-09-22
得票数 3
3
回答
将
Avro
转
换为
Parquet格式
、
、
、
、
我想从数据库中导出数据,并转
换为
Avro
+ Parquet格式。Sqoop支持
Avro
导出,但不支持
拼图
。我尝试使用Apache Pig,Apache Crunch等
将
Avro
对象转
换为
Parquet,但都没有结果。Apache Crunch总是抛出:java.lang.ClassNotFoundException: Class Hadoop not found“,尽管我将它添加到了Hadoop lib路径
中
。什么是从DB导出数据到
拼图</e
浏览 5
提问于2014-05-06
得票数 2
1
回答
将
镶木地板转
换为
Avro
、
我看到了许多关于如何
将
Avro
文件转
换为
Parquet
的
示例,其中Parquet在其元数据中保留了
Avro
模式。 然而,我很困惑是否有一些简单
的
方法来做相反
的
事情--
将
拼图
转
换为
Avro
。有这样
的
例子吗?
浏览 0
提问于2016-04-01
得票数 2
2
回答
使用Java
将
Json对象转
换为
Parquet格式,而无需转
换为
AVRO
(无需使用Spark、Hive、Pig、Impala)
、
、
、
我有一个使用Java将以Json对象形式出现
的
消息转
换为
Apache Parquet格式
的
场景。任何示例代码或示例都会很有帮助。据我所知,无论是蜂巢,猪,火花都被用来
将
消息转
换为
拼花。
浏览 2
提问于2016-10-05
得票数 19
回答已采纳
2
回答
如何在关闭ParquetWriter对象并将其写入磁盘之前获取该对象
的
内存
大小?
、
、
、
我正在从一个流
中
读取
Avro
消息,并使用parquet.hadoop.ParquetWriter将它们写出到Parquet文件
中
。我正在尝试使输出文件
的
大小超过阈值限制。问题是,ParquetWriter
将
所有内容都保存在
内存
中
,只有在writer关闭时才会将其写出到磁盘。根据Parquet文档,数据以最终格式写入
内存
对象,这意味着
内存
中
对象
的
大小与磁盘上
的
最终大小相同。我
浏览 1
提问于2015-03-06
得票数 3
1
回答
Python :使用pandavro生成
avro
架构无效
的
datatype64[ns]
、
、
我想从mysql表中生成一个
avro
文件。我目前使用
的
是pandavro。但是pandavro还不支持datetime数据类型。我该如何解决这个问题?不使用pandavro是可以
的
。
浏览 2
提问于2019-01-02
得票数 1
1
回答
Avro
in-memory,以拼花为存储
、
、
我是第一次接触拼花,并试图理解使用拼花带来
的
各种复杂之处。经常弹出
的
一点是,镶嵌作为存储格式应该与
Avro
一起使用作为
内存
中
的
表示。不幸
的
是,我不明白
Avro
怎么能用在
拼图
上。
浏览 1
提问于2015-09-26
得票数 0
2
回答
在Spark中将数据转
换为
拼图
、
、
、
我在S3
中
有一些遗留数据,我想使用Java使用Spark2将它们转
换为
parquet格式。我拥有所需
的
Avro
schema (.avsc文件)及其使用
Avro
编译器生成
的
Java类,我希望使用这些模式以Parquet格式存储数据。输入数据不是任何标准格式,但我有一个库,可以
将
遗留文件
中
的
每一行转
换为
Avro
类。 是否可以
将
数据作为JavaRDD<String>读取,然
浏览 0
提问于2017-01-18
得票数 0
2
回答
火花与
Avro
,Kryo和拼花
、
、
我正在努力理解
Avro
,Kryo和Parquet在Spark
的
背景下到底做了什么。它们都与序列化相关,但我见过它们一起使用,所以它们不能做同样
的
事情。
浏览 3
提问于2015-06-14
得票数 8
1
回答
如何使用Sqoop
将
数据保存为parquet
avro
文件格式?
、
、
、
我需要将数据从关系数据库移动到HDFS,但我希望
将
数据保存为文件格式。看一下,我
的
选项似乎是--as-parquetfile或--as-avrodatafile,但不是两者
的
混合。根据我对下面这个/picture
的
理解,parquet-
avro
的
工作方式是,它是一个嵌入了
avro
模式
的
镶嵌文件,以及一个转换和保存
avro
对象到镶嵌文件
的
转换器,反之亦然。我最初
的
假设是,如果我使用sqoop
浏览 21
提问于2017-03-14
得票数 0
1
回答
parquet、
avro
和其他hadoop文件格式
的
第一行可以有不同
的
布局吗?
、
、
、
、
为什么我必须将RDD转
换为
DF,才能将其写成拼接、
avro
或其他类型?我知道以这些格式编写RDD是不受支持
的
。我实际上是想写一个
拼图
文件,第一行只包含标题日期,其他行包含详细记录。我已经有了一个包含上述内容
的
csv文件sample.csv。当作为数据帧读取时,csv文件只包含第一个字段,因为第一行只有一列。sc.textFile('hdfs://somepath/sample.csv')df.show() o/p
浏览 0
提问于2019-04-06
得票数 0
1
回答
将
Avro
in Kafka转
换为
Parquet直接转
换为
S3
、
、
、
我在Kafka中有主题是以
Avro
格式存储
的
。我想消费整个主题(在收到时不会更改任何消息),并将其转
换为
Parquet,直接保存在S3上。我目前是这样做
的
,但它要求我一次使用一个来自Kafka
的
消息,并在本地机器上进行处理,将它们转
换为
拼图
文件,一旦使用完整个主题并完全写入
拼图
文件,就关闭编写过程,然后启动一个S3多部分文件上传。或者简称为|
Avro
in Kafka -> convert to parquet on loca
浏览 24
提问于2019-06-13
得票数 3
2
回答
Amazon Redshift可以卸载为Parquet或
Avro
格式吗?
、
、
在从redshift卸载任何数据时,通常会指定分隔符和压缩以及所需
的
参数 UNLOAD ('SELECT * from <schema>.GZIP iam_role 'arn:aws:iam::xxxxxxxxxxxxxxxxxx' redshift是否支持不同文件格式
的
卸载,如Parquet或
avro
?redshift会为卸载添加对文件格式
的
支持吗?
浏览 1
提问于2019-11-27
得票数 1
1
回答
在SparkSQL中使用
Avro
模式和Parquet格式进行读写
、
、
、
我正在尝试从SparkSQL
中
写入和读取镶木面板文件。出于模式演变
的
原因,我希望在写入和读取时使用
Avro
模式。但是,我想使用SparkSQL
的
write()和read()方法(它们与DataFrameWriter和DataFrameReader一起工作),它们与SparkSQL很好地集成在一起(我
将
编写和读取Dataset换句话说,似乎没有办法通过
Avro
模式使用SparkSQL应用编程接口来读/写
拼图
文件。但也许我只是错过了什么?为了澄清,我也理解,这将基
浏览 1
提问于2017-01-04
得票数 5
1
回答
使用Parquet文件格式为方案数据创建配置单元(0.10)表
、
、
、
、
我有一个3级嵌套
的
java类形式
的
数据。我成功地使用
avro
Tools ReflectData创建了
Avro
schema,并使用ReflectDatumWriter
将
数据写出
avro
文件。在Hive
中
,我能够创建一个表,并使用 ('
avro
.schema.url'='hdfs:///schema.avsc'); 我可以看到有一些方法可以将相同<e
浏览 1
提问于2014-10-15
得票数 0
1
回答
具有Snappy压缩功能
的
Parquet格式
的
红移复制命令
、
、
、
、
我有HDFS格式
的
数据集,它是以snappy作为压缩编解码器
的
拼接格式。据我所知,目前Redshift只接受纯文本,json,
avro
格式
的
gzip,lzo压缩编解码器。或者,我
将
拼图
格式转
换为
纯文本,并使用Pig脚本
将
snappy编解码器更改为gzip。 目前有没有一种方法可以直接
将
数据从地块文件加载到Redshift?
浏览 2
提问于2016-03-10
得票数 5
回答已采纳
2
回答
Hadoop之上
的
流媒体框架,支持ORC、parquet文件格式
、
、
、
Hadoop streaming是否支持新
的
柱状存储格式,如ORC和parquet,或者在Hadoop之上是否有允许您读取此类格式
的
框架?
浏览 0
提问于2014-04-04
得票数 5
1
回答
有没有另一种/类似的方法来解决数据库
的
sparks.read.format.load问题?
、
、
、
我正在尝试
将
avro
文件加载到sparks数据帧
中
,这样我就可以将其转
换为
pandas,并最终转
换为
字典。我想使用
的
方法是:(注意:我试图加载到dataframe
中
的
avro
文件数据已经在
内存
中
,作为来自python请求
的
浏览 0
提问于2019-06-07
得票数 1
2
回答
如何在
avro
模式中指定时间戳
、
、
我正在尝试
将
这个值1520200800049
转
换为
Avro
。这是我
的
模式
中
字段
的
规范,顺便说一下,这是一个union模式: "name" : "TimestampField" "type":"long","logicalType":"timestamp-millis&q
浏览 0
提问于2018-06-04
得票数 0
1
回答
Azure解决方案,用于
将
流保存到blob文件
中
,作为块
、
、
--我正试图找到几种使用azure服务来执行
的
方法:我读到事件中心捕获只将文件保存为
AVRO
。因此,我还可以考虑从原始
的
AVRO
BLOB复制到目标地板BLOB
的
第二个管道。在AZURE
浏览 5
提问于2020-02-05
得票数 3
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券