如何从空的RDD中读取Avro模式？

、、

我正在使用AvroKeyInputFormat读取avro文件： .map(_._1.datum())val schema = records.first.getSchema不幸的是，如果

浏览 1提问于2017-12-04得票数 2

回答已采纳

1回答

读取星火中的Avro文件并提取列值

、

我想使用Spark读取一个avro文件(我使用的是Spark1.3.0，所以我没有数据帧)import org.apache.avro.generic.GenericRecordimport org.apache.avro.mapred.AvroKeyimport org.apache.hadoop.io.Null

浏览 3提问于2015-10-29得票数 1

回答已采纳

2回答

如何读取Scala中的Avro二进制(Base64)编码数据

、、、、

我正在尝试读取avro文件，该文件以二进制(Base64)编码，在avro文件上的snappy压缩Hadoop如下所示：我需要从上面的文件中提取和读取“模式”和“数据”。“模式”与具有多个文件的“数据”相关联。我尝试了以下步骤：val binaryFilesRDD = sc.binaryFiles("file+0+00724+00731.avro&

浏览 0提问于2019-10-14得票数 1

1回答

卡夫卡·阿夫罗与星火搜索

、、

希望使用Avro作业(以及具有许多定义模式的SchemaRegistry )将来自Kafka主题的Spark消息放入Elasticsearch中。我成功地将记录读取并反序列化为String (json)格式(使用这两个方法)： def avroToJsonString(record，并且在调试器中看到反序列化的JSON字符串，一切看起来都很好，但由于某些原因，我无

浏览 3提问于2019-11-20得票数 0

回答已采纳

1回答

在hadoopFile RDD上收集返回重复结果

、

我正试着像下面这样读取avro文件 classOf[org.apache.avro.mapred.AvroInputFormat[MyAvroRecord]], classOf[org.apache.hadoop.io.NullWritable])(avropath) val collectedData = rdd<

浏览 5提问于2017-03-10得票数 0

回答已采纳

3回答

python火花阿夫罗

、、

我在一个avro文件中读取了3条记录，使用： "threerecords.avro", conf=None) 然后，

浏览 3提问于2015-04-14得票数 18

回答已采纳

1回答

从avro文件中获取火花dataframe列中每一行的数据

、、

我正在尝试处理我的dataframe中的一个列，并从每个条目对应的avro文件中检索一个度量。基本上，我想做以下几点：读取路径列的每一行，这是作为数据读取到avro文件中的avro文件的路径&获取精度度量，它以Struct的形式创建一个名为的新列，该列具有精度度量。这也可以看作是应用spark.rea

浏览 4提问于2022-07-01得票数 0

1回答

如何在加载源Java类时使用Spark shell读取Avro文件(从Java类生成)？

、、

我得到了几个Avro文件，它们是从java类A的对象生成的。使用spark-shell (Spark 1.4.0)，我可以使用spark-avro (2.0.1版)将这些文件读取到数据帧中。val df = sqlContext.read.avro("file.avro") 只要spark shell不知道类A，就可以正常工作。如果我向shell添加一个jar，并发出相同的命令，我会得到以下异常：

浏览 1提问于2015-09-10得票数 1

1回答

用Avro序列化RDD

、、、

我有这样的情况。我们必须提供一个采用任何类型的RDD的功能，使用泛型表示法，您可以说是RDD[T]，并使用Avro DataFile序列化和保存到HDFS。请注意，RDD可能是任何类型的，因此该功能应该是给定的RDD类型的通用功能，例如，RDD[(String, AnyBusinessObject)] o RDD[(String, Date, OtherBusin

浏览 0提问于2019-03-08得票数 0

1回答

如何在Databricks中迭代以读取数据湖中存储在不同子目录中的数百个文件？

、、、、

我必须从Azure数据湖Gen2中读取数据库中的数百个avro文件，从每个文件中的Body字段中提取数据，并将所有提取的数据连接在一个唯一的数据中。要点是，所有要读取的avro文件都是存储在湖中不同子目录中的，如下所示：根/YYYY/mm/DD

浏览 3提问于2020-06-17得票数 0

回答已采纳

3回答

如何让spark为空拼图输出写一个_SUCCESS文件？

我的一个spark作业当前在空输入上运行，因此没有生成任何输出。现在还可以，但我仍然需要知道spark作业是否运行，即使它没有生成拼花输出。目前，如果有输入，它不会向输出的目录写入任何内容，所以我无法确定是否出现了故障(这是一个更大的自动化管道的一部分，因此它会一直重新调度作业，因为没有迹象表明它已经运行了)。

浏览 30提问于2016-02-24得票数 5

3回答

如何在PySpark中读取Avro文件

、、、

我正在写一个使用python的spark作业。然而，我需要读入一大堆avro文件。 path, "org.apache.<e

浏览 5提问于2015-04-21得票数 14

回答已采纳

2回答

使用Spark- Java读取存储在HDFS中的Avro表和模式

、、、、

我正在尝试读取存储在HDFS中的Avro表，同时指定也存储在HDFS中的模式。目前，我有一个似乎有效的解决方案： String [] collectString schema = collect[0]; Dataset<Row> df =sqlContext.re

浏览 0提问于2016-12-03得票数 0

2回答

在Spark中将数据转换为拼图

、、、

我在S3中有一些遗留数据，我想使用Java使用Spark2将它们转换为parquet格式。我拥有所需的Avro schema (.avsc文件)及其使用Avro编译器生成的Java类，我希望使用这些模式以Parquet格式存储数据。输入数据不是任何标准格式，但我有一个库，可以将遗留文件中的每一行转换为Avro类。是否可以将数据作为JavaRDD<String>读取，然后使用库将转换应用到Avro

浏览 0提问于2017-01-18得票数 0

2回答

avro json附加字段

、

我有下面的avro模式 "type":"record", "namespace":"test.name", "state": "TX" ], "firstname":&q

浏览 2提问于2018-01-24得票数 1

1回答

如何将avro文件读取为Java中的对象列表

、、、

我有一个avro文件，在将它转换成它的代表对象之后，我想读取和操作它。我尝试在Java中使用RDD和DataSet加载它，但在这两种情况下，我都无法转换为所需的对象Dataset<MyClass> input = sparkSession.read)); JavaRDD<

浏览 1提问于2020-01-22得票数 1

回答已采纳

3回答

使用模式将带有Spark的AVRO消息转换为DataFrame

、、、、

是否有一种方法可以使用模式将消息从与转换为？用于用户记录的架构文件： "fields": [ { "name": "lastName","type": "string" } "name": "user"

浏览 6提问于2016-08-20得票数 14

回答已采纳

1回答

如何跨多个数据集和日期分区从Dataproc写入BigQuery？

、、

即使在我们当前的数据级别上，Cloud也开始有点紧张(部分原因是一个公认的糟糕的模式)。我们想转移到BigQuery，所以我的第一个步骤是第五个工作，它读取最终的Avro文件并输出到BigQuery，基本上与当前Cloud输出作业平行。使用的示例，我已经想出了如何做到这一点，但需要更多的复杂性。具体而言，我需要：将单个客户数据(多个客户的数据可以从单个源)分

浏览 0提问于2016-11-08得票数 0

1回答

Spark无法读取二进制文件中的所有记录

、、、、

我正在尝试从S3读取Avro文件，如此所示，我能够很好地读取它。我的文件如下所示，每个文件包含5000条记录。s3a://bucket/part-0.avros3a://bucket/part-2.avro } d

浏览 15提问于2020-05-13得票数 0

4回答

如何在星火中创建空dataFrame

、、、、

我有一套基于Avro的蜂窝表，我需要从它们中读取数据。由于Spark使用hive从HDFS读取数据，因此它比直接读取HDFS慢得多。因此，我使用数据砖Spark从底层HDFS dir读取Avro文件。一切正常，除非桌子是空的。我已经成功地使用以下命令从hive表的.avsc文件中获得了模式，但是我得到了一个错

浏览 5提问于2018-05-30得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

读取星火中的Avro文件并提取列值

如何读取Scala中的Avro二进制(Base64)编码数据

卡夫卡·阿夫罗与星火搜索

在hadoopFile RDD上收集返回重复结果

python火花阿夫罗

从avro文件中获取火花dataframe列中每一行的数据

如何在加载源Java类时使用Spark shell读取Avro文件(从Java类生成)？

用Avro序列化RDD

如何在Databricks中迭代以读取数据湖中存储在不同子目录中的数百个文件？

如何让spark为空拼图输出写一个_SUCCESS文件？

如何在PySpark中读取Avro文件

使用Spark- Java读取存储在HDFS中的Avro表和模式

在Spark中将数据转换为拼图

avro json附加字段

如何将avro文件读取为Java中的对象列表

使用模式将带有Spark的AVRO消息转换为DataFrame

如何跨多个数据集和日期分区从Dataproc写入BigQuery？

Spark无法读取二进制文件中的所有记录

如何在星火中创建空dataFrame

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐