腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(510)
视频
沙龙
1
回答
如
何在
Spark
中将
结构
编码
成
Avro
记录
?
、
我正在尝试使用to_
avro
()函数来创建
Avro
记录
。但是,我不能对多列进行
编码
,因为一些列在
编码
后就会丢失。(col("struct")).as("value")) .collectentity_type", "type" : "s
浏览 23
提问于2020-12-08
得票数 0
1
回答
使用
spark
编写数据格式创建topLevelRecord -想要使用现有的模式
、
、
、
我使用Kryo
编码
器将GenericRecords
编码
成
一个火花DataFrame,并将数据写入一个
Avro
文件。此
记录
不在我现有的模式中,我认为它是在我使用
spark
编写时创建的。我想知道是否/如何从
avro
文件中删除它。
浏览 0
提问于2018-07-10
得票数 2
2
回答
火花与
Avro
,Kryo和拼花
、
、
我正在努力理解
Avro
,Kryo和Parquet在
Spark
的背景下到底做了什么。它们都与序列化相关,但我见过它们一起使用,所以它们不能做同样的事情。或者它们只在
spark
工作期间相关,即。用于在混洗或溢出到磁盘期间通过网络发送对象?Arvo和Kryo有什么不同?当你一起使用它们时会发生什么?
浏览 3
提问于2015-06-14
得票数 8
1
回答
如
何在
Spark
Streaming 2.3.1
中将
每条
记录
写入多个kafka主题?
、
、
如
何在
Spark
Streaming 2.3.1
中将
每条
记录
写入多个kafka主题?换句话说,我有5条
记录
和两个输出kafka主题,我希望在两个输出主题中都有5条
记录
。问题没有谈到
结构
化的流媒体案例。我正在寻找
结构
化流媒体的具体。
浏览 16
提问于2018-07-23
得票数 1
1
回答
如何将更大的JSON数据集
编码
到
avro
?
、
、
我正在学习用
avro
序列化数据。我想序列化一个更大的数据集。有没有人能告诉我如
何在
不硬
编码
GenericRecordbuilder的情况下遍历更大的数据集?我只想读取一个Json文件,并将所有数据添加到一个
记录
中,然后我想对Json数据进行
编码
。val obj = new GenericRecordBuilder(schema) .set("ID", 2)这里我想加载一个<em
浏览 0
提问于2019-07-09
得票数 0
1
回答
火花:
Avro
与Parquet的表演
、
、
既然
Spark
2.4已经内置了对
Avro
格式的支持,我正在考虑更改我的数据湖中的一些数据集的格式--那些通常是针对整行而不是特定列聚合而被查询/连接的数据集的格式--从Parquet到
Avro
。然而,大部分数据上的工作都是通过
Spark
完成的,据我所知,
Spark
的内存缓存和计算都是在列式数据上完成的。在这方面,Parquet是否提供了性能提升,而
Avro
将招致某种数据“转换”处罚?
浏览 0
提问于2018-12-01
得票数 5
回答已采纳
1
回答
Flink的"TypeSerializerOutputFormat“把奇怪的二进制数据写在一起
我使用Flink生成数组数据,以供其他应用程序使用。(对于数组,我不需要任何方法)我比较了Flink生成的二进制数据和文本数据,并在二进制数据中发现了一个奇怪的数据。bin_output_format.setWriteMode (WriteMode.OVERWRITE) tuple_pai
浏览 1
提问于2016-02-07
得票数 0
回答已采纳
1
回答
如
何在
汇合的KSQL上做“扁平”动作?
、
我有一个json
结构
化数据,
如
{“名称”:“福”,“爱好”:“音乐”}{“名”:
浏览 0
提问于2018-08-13
得票数 0
1
回答
Kryo或其他Java序列化库中的目录
结构
、
、
、
我正在尝试寻找一种在Java中使用目录
结构
序列化数据的方法。我要保存的数据是股票交易
记录
,每个
记录
都由股票名称、价格、时间和成交量组成。我知道如
何在
没有任何层次
结构
的情况下序列化这样的
记录
( "Trade“类的实例),但在阅读时,我必须遍历所有
记录
,比如说数十亿条
记录
来收集单个特定股票的数据。我知道您可以在HDF5中创建这样的分层
结构
(目录),但我正在寻找一种不使用JNI且对HDFS更友好的Java序列化库。经过一些在线搜索
浏览 0
提问于2014-12-28
得票数 0
1
回答
更新
结构
数组-火花
、
、
、
、
我有以下星火三角表
结构
,|id |addresses", "Street": "YYY"}]|在这里,addresses列是一个
结构
数组我需要从"Street“属性值
中将
第一个地址更新为"XXX",而不需要更改列表中的
浏览 4
提问于2020-06-23
得票数 0
回答已采纳
3
回答
斯卡拉星火中的Encoder[Row]
、
、
我试图在
Spark
2.0.0中的Dataset[Row] (DataFrame)上执行一个简单的映射。
浏览 5
提问于2016-09-30
得票数 2
10
回答
将
Spark
结构
化流与合流模式注册表集成
、
、
、
、
我正在使用一个卡夫卡源在星火
结构
化流接收汇合
编码
的阿夫罗
记录
。我打算使用,但与火花
结构
化流的集成似乎是不可能的。 我已经看到了这个问题,但无法让它与合流模式注册表一起工作。
浏览 0
提问于2018-02-20
得票数 28
回答已采纳
1
回答
当列有时可以是
结构
,有时可以是字符串时,Scala创建SparkSQL来处理异常
、
、
列是棘手的,因为有时它的字符串,但在许多情况下可以是
结构
。我只想考虑列是struct的时间,并为它提取所需的信息。假设这个例子:annoyingCol.data等于字符串或
结构
,以避免出现像这样的错误:need struct type butannoyingCol.data.my_data else null end我试过了 import org.apache.
spark<
浏览 0
提问于2018-05-23
得票数 2
1
回答
如
何在
iOS
中将
艺术家姓名图像
编码
成
音频
记录
?
、
、
、
我正在为音乐应用工作,因为其中一个功能是录制用户的声音和播放相同的。到目前为止,一切都在控制之中。昨天我想到了一个想法,我马上就开始在谷歌上搜索,我的想法是使用AVAudioRecorder在我录制的音频中添加艺术家的名字和专辑图像,但没有取得多大的成功。
浏览 1
提问于2013-05-10
得票数 1
2
回答
将动画宽度转换为WPF中的实际宽度?
、
、
、
如
何在
WPF
中将
元素的宽度从0动画化为其实际宽度?</Storyboard> </EventTrigger>如果我将绑定更改为硬
编码
值,
如
100,则宽度将被正确地设置为动画,除非我希望绑定到元素的实际宽度。对于
记录
,这也不起作用: To="{Binding RelativeSource={R
浏览 0
提问于2012-06-12
得票数 7
回答已采纳
2
回答
为什么使用
编码
器比java序列化快得多?
、
、
、
为什么使用
编码
器比java和kryo序列化快得多?
浏览 5
提问于2018-05-05
得票数 1
回答已采纳
3
回答
如何配置pyspark默认写入HDFS?
、
、
默认情况下,我正在尝试将
spark
写入HDFS。目前,当我在RDD上调用saveAsTextFile时,它会写入我的本地文件系统。有没有一种方法可以配置或初始化
spark
默认情况下会保存到HDFS吗?
浏览 0
提问于2017-11-28
得票数 1
1
回答
当字段为空时,如何用C++接口在
Avro
中写入数据?
、
为了简单起见,我减少了只写一个字段的
记录
。该字段是一个可以为空的字符串。在
Avro
中,这意味着字段是可选的。字段的空方面是通过
Avro
联合来完成的,按照惯例,在该字段的模式中,null值位于第一位。到目前为止,我从大量的尝试和错误中学到了什么: ,您需要在模板化的codec_traits
结构
中为要写入的
记录
提供
编码
器和解码器。这通常是在某个头文件中定义的。在您的C++代码中使用加载的模式声明一个
avro
::DataFileWriter,并从前面提到的标题中声明一个<em
浏览 0
提问于2020-07-08
得票数 3
2
回答
使用多种语言生成给定数据格式的模型、解析器和序列化器的选项?
、
我们不希望手动同步和维护这些协议,而是以通用的方式定义这些协议的消息
结构
,并通过这些定义生成模型、解析器和序列化器。例如,如果我要对0xFF的常量字节值进行
编码
,这将是一个问题。 2)这些服务似乎更侧重于服务和使用的模型。同样的限制似乎也适用于Protobuf:我对传输格式没有完全的控制。3) DFDL似乎正是我想要的,因为我想要一种语言来描述我的数据格式.不幸的是,我可以找到像Daffodil这样的项目,它们似乎能够使用DFDL定义将任何数据格式解析
成
某种XML (
如
Dom
结构
)。还看了
Avro
浏览 0
提问于2019-01-09
得票数 1
4
回答
可分还是分不分?
、
根据这个,Snappy是可分裂的。 网络上也有一些令人困惑的信息。有人说这是可分裂的,有人说是不可分割的。
浏览 3
提问于2015-09-03
得票数 19
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
Apache Spark 2.4 内置的 Avro 数据源实战
斯坦福开源数据解析引擎Sparser:解析速度提升22倍
如何将kafka中的数据快速导入Hadoop?
什么是Spark SQL,它的作用是什么?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券