腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
0
回答
如何
从
空
的
RDD
中
读取
Avro
模式
?
、
、
我正在使用AvroKeyInputFormat
读取
avro
文件: .map(_._1.datum())val schema = records.first.getSchema不幸
的
是,如果
浏览 1
提问于2017-12-04
得票数 2
回答已采纳
1
回答
读取
星火中
的
Avro
文件并提取列值
、
我想使用Spark
读取
一个
avro
文件(我使用
的
是Spark1.3.0,所以我没有数据帧)import org.apache.
avro
.generic.GenericRecordimport org.apache.
avro
.mapred.AvroKeyimport org.apache.hadoop.io.Null
浏览 3
提问于2015-10-29
得票数 1
回答已采纳
2
回答
如何
读取
Scala
中
的
Avro
二进制(Base64)编码数据
、
、
、
、
我正在尝试
读取
avro
文件,该文件以二进制(Base64)编码,在
avro
文件上
的
snappy压缩Hadoop如下所示:我需要从上面的文件中提取和
读取
“
模式
”和“数据”。“
模式
”与具有多个文件
的
“数据”相关联。我尝试了以下步骤:val binaryFilesRDD = sc.binaryFiles("file+0+00724+00731.
avro
&
浏览 0
提问于2019-10-14
得票数 1
1
回答
卡夫卡·阿夫罗与星火搜索
、
、
希望使用
Avro
作业(以及具有许多定义
模式
的
SchemaRegistry )将来自Kafka主题
的
Spark消息放入Elasticsearch
中
。我成功地将记录
读取
并反序列化为String (json)格式(使用这两个方法): def avroToJsonString(record,并且在调试器中看到反序列化
的
JSON字符串,一切看起来都很好,但由于某些原因,我无
浏览 3
提问于2019-11-20
得票数 0
回答已采纳
1
回答
在hadoopFile
RDD
上收集返回重复结果
、
我正试着像下面这样
读取
avro
文件 classOf[org.apache.
avro
.mapred.AvroInputFormat[MyAvroRecord]], classOf[org.apache.hadoop.io.NullWritable])(avropath) val collectedData =
rdd<
浏览 5
提问于2017-03-10
得票数 0
回答已采纳
3
回答
python火花阿夫罗
、
、
我在一个
avro
文件
中
读取
了3条记录,使用: "threerecords.
avro
", conf=None) 然后,
浏览 3
提问于2015-04-14
得票数 18
回答已采纳
1
回答
从
avro
文件
中
获取火花dataframe列
中
每一行
的
数据
、
、
我正在尝试处理我
的
dataframe
中
的
一个列,并从每个条目对应
的
avro
文件
中
检索一个度量。基本上,我想做以下几点:
读取
路径列
的
每一行,这是作为数据
读取
到
avro
文件
中
的
avro
文件
的
路径&获取精度度量,它以Struct
的
形式创建一个名为
的
新列,该列具有精度度量。这也可以看作是应用spark.rea
浏览 4
提问于2022-07-01
得票数 0
1
回答
如何
在加载源Java类时使用Spark shell
读取
Avro
文件(
从
Java类生成)?
、
、
我得到了几个
Avro
文件,它们是
从
java类A
的
对象生成
的
。使用spark-shell (Spark 1.4.0),我可以使用spark-
avro
(2.0.1版)将这些文件
读取
到数据帧
中
。val df = sqlContext.read.
avro
("file.
avro
") 只要spark shell不知道类A,就可以正常工作。如果我向shell添加一个jar,并发出相同
的
命令,我会得到以下异常:
浏览 1
提问于2015-09-10
得票数 1
1
回答
用
Avro
序列化
RDD
、
、
、
我有这样
的
情况。我们必须提供一个采用任何类型
的
RDD
的
功能,使用泛型表示法,您可以说是
RDD
[T],并使用
Avro
DataFile序列化和保存到HDFS。请注意,
RDD
可能是任何类型
的
,因此该功能应该是给定
的
RDD
类型
的
通用功能,例如,
RDD
[(String, AnyBusinessObject)] o
RDD
[(String, Date, OtherBusin
浏览 0
提问于2019-03-08
得票数 0
1
回答
如何
在Databricks
中
迭代以
读取
数据湖
中
存储在不同子目录
中
的
数百个文件?
、
、
、
、
我必须
从
Azure数据湖Gen2
中
读取
数据库
中
的
数百个
avro
文件,
从
每个文件
中
的
Body字段中提取数据,并将所有提取
的
数据连接在一个唯一
的
数据
中
。要点是,所有要
读取
的
avro
文件都是存储在湖
中
不同子目录
中
的
,如下所示: 根/YYYY/mm/DD
浏览 3
提问于2020-06-17
得票数 0
回答已采纳
3
回答
如何
让spark为
空
拼图输出写一个_SUCCESS文件?
我
的
一个spark作业当前在
空
输入上运行,因此没有生成任何输出。现在还可以,但我仍然需要知道spark作业是否运行,即使它没有生成拼花输出。目前,如果有输入,它不会向输出
的
目录写入任何内容,所以我无法确定是否出现了故障(这是一个更大
的
自动化管道
的
一部分,因此它会一直重新调度作业,因为没有迹象表明它已经运行了)。
浏览 30
提问于2016-02-24
得票数 5
3
回答
如何
在PySpark
中
读取
Avro
文件
、
、
、
我正在写一个使用python
的
spark作业。然而,我需要读入一大堆
avro
文件。 path, "org.apache.<e
浏览 5
提问于2015-04-21
得票数 14
回答已采纳
2
回答
使用Spark- Java
读取
存储在HDFS
中
的
Avro
表和
模式
、
、
、
、
我正在尝试
读取
存储在HDFS
中
的
Avro
表,同时指定也存储在HDFS
中
的
模式
。目前,我有一个似乎有效
的
解决方案: String [] collectString schema = collect[0]; Dataset<Row> df =sqlContext.re
浏览 0
提问于2016-12-03
得票数 0
2
回答
在Spark中将数据转换为拼图
、
、
、
我在S3
中
有一些遗留数据,我想使用Java使用Spark2将它们转换为parquet格式。我拥有所需
的
Avro
schema (.avsc文件)及其使用
Avro
编译器生成
的
Java类,我希望使用这些
模式
以Parquet格式存储数据。输入数据不是任何标准格式,但我有一个库,可以将遗留文件
中
的
每一行转换为
Avro
类。 是否可以将数据作为JavaRDD<String>
读取
,然后使用库将转换应用到
Avro
浏览 0
提问于2017-01-18
得票数 0
2
回答
avro
json附加字段
、
我有下面的
avro
模式
"type":"record", "namespace":"test.name", "state": "TX" ], "firstname":&q
浏览 2
提问于2018-01-24
得票数 1
1
回答
如何
将
avro
文件
读取
为Java
中
的
对象列表
、
、
、
我有一个
avro
文件,在将它转换成它
的
代表对象之后,我想
读取
和操作它。我尝试在Java中使用
RDD
和DataSet加载它,但在这两种情况下,我都无法转换为所需
的
对象Dataset<MyClass> input = sparkSession.read)); JavaRDD<
浏览 1
提问于2020-01-22
得票数 1
回答已采纳
3
回答
使用
模式
将带有Spark
的
AVRO
消息转换为DataFrame
、
、
、
、
是否有一种方法可以使用
模式
将消息
从
与转换为?用于用户记录
的
架构文件: "fields": [ { "name": "lastName","type": "string" } "name": "user"
浏览 6
提问于2016-08-20
得票数 14
回答已采纳
1
回答
如何
跨多个数据集和日期分区
从
Dataproc写入BigQuery?
、
、
即使在我们当前
的
数据级别上,Cloud也开始有点紧张(部分原因是一个公认
的
糟糕
的
模式
)。我们想转移到BigQuery,所以我
的
第一个步骤是第五个工作,它
读取
最终
的
Avro
文件并输出到BigQuery,基本上与当前Cloud输出作业平行。使用
的
示例,我已经想出了
如何
做到这一点,但需要更多
的
复杂性。具体而言,我需要: 将单个客户数据(多个客户
的
数据可以
从
单个源)分
浏览 0
提问于2016-11-08
得票数 0
1
回答
Spark无法
读取
二进制文件
中
的
所有记录
、
、
、
、
我正在尝试
从
S3
读取
Avro
文件,如此所示,我能够很好地
读取
它。我
的
文件如下所示,每个文件包含5000条记录。s3a://bucket/part-0.
avro
s3a://bucket/part-2.
avro
} d
浏览 15
提问于2020-05-13
得票数 0
4
回答
如何
在星火中创建
空
dataFrame
、
、
、
、
我有一套基于
Avro
的
蜂窝表,我需要从它们
中
读取
数据。由于Spark使用hive
从
HDFS
读取
数据,因此它比直接
读取
HDFS慢得多。因此,我使用数据砖Spark
从
底层HDFS dir
读取
Avro
文件。 一切正常,除非桌子是
空
的
。我已经成功地使用以下命令
从
hive表
的
.avsc文件
中
获得了
模式
,但是我得到了一个错
浏览 5
提问于2018-05-30
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Java中如何读取MySQL的DateTime类型值
java读取excel中的数据如何判断含有公式
python如何读取CSV文件中的特定行数据
Pandas中如何删除空值所在的行
Apache Spark 2.4 内置的 Avro 数据源实战
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券