如何在pyspark上读取以avro schema对象作为头的CSV？

在pyspark中，可以通过使用Avro作为数据序列化格式，并结合avro schema对象来读取以avro schema对象作为头的CSV文件。下面是一个示例代码：

from pyspark.sql import SparkSession

# 创建SparkSession对象
spark = SparkSession.builder.appName("Read CSV with Avro Schema").getOrCreate()

# 定义avro schema对象
avro_schema = {
    "type": "record",
    "name": "csv_data",
    "fields": [
        {"name": "col1", "type": "string"},
        {"name": "col2", "type": "string"},
        {"name": "col3", "type": "string"}
    ]
}

# 读取以avro schema对象作为头的CSV文件
df = spark.read.format("csv") \
    .option("header", True) \
    .option("inferSchema", False) \
    .option("avroSchema", str(avro_schema)) \
    .load("path/to/csv/file.csv")

# 打印DataFrame内容
df.show()

# 停止SparkSession
spark.stop()

在上述代码中，首先创建了一个SparkSession对象。然后定义了一个avro schema对象，其中包含了CSV文件的列名和数据类型。接下来，使用spark.read.format("csv")来指定读取CSV文件，并通过.option("header", True)设置第一行为列名，.option("inferSchema", False)禁用自动推断列的数据类型，.option("avroSchema", str(avro_schema))指定avro schema对象作为头信息。最后，使用.load("path/to/csv/file.csv")加载CSV文件，并返回一个DataFrame对象。

通过以上代码，我们可以在pyspark中读取以avro schema对象作为头的CSV文件。请注意，这里未提及具体腾讯云相关产品和产品介绍链接地址，您可以参考腾讯云文档或咨询腾讯云官方渠道获取更详细的信息。

页面内容是否对你有帮助？

有帮助

没帮助

使用缺少的依赖项将csv转换为.avro

、、、、

我有一个Python脚本，它使用fastavro库来转换csv文件并根据提供的模式序列化它： from fastavro import writer from fastavro.schema import load_schema import csv schema = load_schema('schema.avsc') def csv_reader(): with open('data.csv') as f: yield from csv.DictReader(f) with open('data.snappy.avro&#

浏览 1提问于2021-09-21得票数 0

2回答

如何在pyspark中从kafka中以字符串格式从Confluent Schema Registry获取Avro数据？

、、、、

我正在从spark (结构化数据流)中读取Kafka中的数据，但在spark中从kafka中获取的数据不是字符串格式。火花: 2.3.4 Kafka数据格式： {"Patient_ID":316,"Name":"Richa","MobileNo":{"long":7049123177},"BDate":{"int":740},"Gender":"female"} 下面是kafka触发结构化流媒体的代码： # spark-submit --jars k

浏览 1提问于2019-12-27得票数 0

1回答

如何在pyspark上读取以avro schema对象作为头的CSV？

、、、、

我有一个可以这样正确读取的文件： sqlContext.read.format('csv').options(header='false', inferSchema='true', delimiter = "\a", nullValue = '\\N').load('adl://resource.azuredatalakestore.net/datalake-prod/raw/something/data/something/date_part={}/{}'.format(elem[0], ele

浏览 11提问于2019-05-24得票数 0

1回答

如何在Windows 10上使用avro-python3 3解析文件？

、、

我已经从Microsoft下载了一个AVRO文件(带有JSON有效负载)到我的Windows 10计算机上：然后，通过pip安装python 3.8.5和avro 1.10.0，我尝试运行以下脚本： import os, avro from avro.datafile import DataFileReader, DataFileWriter from avro.io import DatumReader, DatumWriter reader = DataFileReader(open("48.avro", "rb"), DatumReader(

浏览 3提问于2020-09-28得票数 0

回答已采纳

1回答

将CSV导入

、、、、

我是个新手，我正在尝试加载如下所示的CSV文件：我的csv文件： article_id title short_desc 33 novel findings support original asco-cap guidelines support categorization of her2 by fish status used in bcirg clinical trials 我的代码

浏览 0提问于2018-04-24得票数 0

回答已采纳

1回答

将数据写入到avro以维护键值序列

、、、

我正在尝试使用pyspark读取一个avro文件，并根据特定的键对其中一个列进行排序。我的avro文件中的一个列包含一个MapType数据，我需要根据键进行排序。test只包含一行，实体列具有MapType数据。我的目的是将输出写回一个avro文件，但需要对键进行排序。不幸的是，我无法做到这一点，不确定这是否有可能在阿夫罗？它是以输入出现的相同方式写回的。下面是我的代码(我已经创建了一个笔记本来测试它)： from pyspark.conf import SparkConf from pyspark.sql import SparkSession from pyspark.sql.functi

浏览 4提问于2020-06-11得票数 2

1回答

用Pyspark内核读取Jupyter notebook中的Spark Avro文件

、、

我想在Jupyter笔记本上读一个Spark Avro文件。我已经把spark -avro建好了。当我转到我的目录并执行以下操作时 pyspark --packages org.apache.avro:avro-mapred:1.7.7,com.databricks:spark-avro_2.10:2.0.1 它能够在浏览器中打开jupyter笔记本，然后我可以运行以下命令，它可以正确读取。 sdf_entities = sqlContext.read.format("com.databricks.spark.avro").load("learning_entity

浏览 10提问于2017-02-07得票数 1

回答已采纳

1回答

Windows (Spyder)：如何使用pyspark读取csv文件

、、

我使用以下代码读取csv文件 import os import sys os.environ["SPARK_HOME"] = "D:\ProgramFiles\spark-2.1.0-bin-hadoop2.7" os.environ["PYLIB"] = os.environ["SPARK_HOME"] + "/python/lib" sys.path.insert(0, os.environ["PYLIB"] +"/py4j-0.10.4-src.zip") sys.path.

浏览 0提问于2017-03-05得票数 2

1回答

Avro schema ( .avsc )在Pyspark中的实施

、、

有人可以帮助我通过Pyspark读取avro schema (.avsc )，并在将数据帧写入目标存储时强制执行它吗？我所有的targetr表模式都是以.avsc文件的形式提供的，在Pyspark中保存我的数据框架时，我需要提供这个自定义模式。我知道有像databricks的spark-avro这样的库。但是所有的例子都是用Scala给出的。

浏览 19提问于2021-03-23得票数 1

2回答

如何在python中使用自定义Apache字段类型？

、、

我已经访问了Apache集群，并获得了一个描述Apache消息序列化格式的文件。我正在用python编写一个小的测试使用者，在试图解析模式时，我得到了以下错误： SchemaParseException: Type property "{u'items': u'com.myapp.avromsg.common.MilestoneField', u'type': u'array'}" not a valid Avro schema: Items schema (com.myapp.avromsg.common.Mil

浏览 0提问于2018-03-23得票数 0

回答已采纳

2回答

是否可以从avro数据中检索模式并在MapReduce中使用它们？

、、

我使用avro-tools将avro schema转换为Java类，并将其传递给Avro-Map-Input-Key-Schema进行数据处理。这一切都运行得很好。但是最近我不得不在avro schema中添加一个新的列，并重新编译java类。这就是我遇到问题的地方，因为我以前生成的数据是由旧模式序列化的，所以在修改模式之后，我的MapReduce作业现在失败了，即使我的MapReduce逻辑没有使用新的列。因此，我想知道是否可以停止传入Java schema类，并从数据中检索模式并(动态)处理数据，这是否可能。我想它不是！

浏览 1提问于2014-11-26得票数 0

2回答

使用瓶装水-pg，如何读取Python用户的数据？

、、

我用Python编写了一个使用者，如下所示： from kafka import KafkaConsumer import avro.schema import avro.io import io # To consume messages consumer = KafkaConsumer('test', group_id='', bootstrap_servers=['kafka:9092']) schema = ""

浏览 3提问于2015-06-25得票数 1

回答已采纳

1回答

如何使用PySpark将csv文件转换为avro文件？

、、

我在谷歌云平台上工作，我正在尝试使用Pyspark将csv文件转换为avro文件。我看过很多网站，但我还没能实现解决方案。提前谢谢你。:)

浏览 36提问于2021-11-17得票数 0

1回答

使用python将具有不同模式的项附加到Avro中的现有文件

、、

我刚刚开始使用Avro (和python)。我想检查一下模式的演变。我准备了两个模式，首先用第一个模式保存数据，然后追加新数据并用模式2保存。我写的时候没有得到任何错误，但我不能反序列化数据。我想我的语法是错的。如何继续将具有新架构的项添加到现有文件？ schema = avro.schema.Parse(open('user.avsc', "r").read()) writer = DataFileWriter(open("users.avro", "wb"), DatumWriter(), schema) writer.a

浏览 19提问于2019-12-20得票数 0

回答已采纳

1回答

如何在nifi中为csv文件生成Avro模式

有时我需要使用ConvertRecord将csv文件转换为json文件。所以我必须在ConvertRecord中设置AvroSchemaRegistry。有没有处理器可以帮我生成Avro schema (csv文件有很多列)，这样我就可以把它放到AvroSchemaRegistry中。

浏览 18提问于2021-03-11得票数 0

1回答

火花放电不缩放值太大，不适合精确火花

、、

我正在尝试用不同的模式读取由pyspark编写的avro文件。小数列精度的差异。下面是由pyspark编写的avro文件夹的文件夹结构 /mywork/avro_data/day1/part-* /mywork/avro_data/day2/part-* 下面是它们的模式 day1 = spark.read.format('avro').load('/mywork/avro_data/day1') day1.printSchema() root |-- price: decimal(5,2) (nullable = True) day2 = spark.re

浏览 4提问于2020-07-07得票数 0

回答已采纳

1回答

从scala读取Avro文件

、

我正在尝试使用scala读取一个avro文件。我已经使用avro-tools提取了该文件的模式，并将其保存到一个文件中，然后尝试使用以下代码读取它： val zibi= scala.io.Source.fromFile("/home/wasabi/schema").mkString val schema_obj = new Schema.Parser val schema2 = schema_obj.parse(zibi) val READER2 = new GenericDatumReader[GenericRecord](schema2) val myFile

浏览 1提问于2015-09-28得票数 4

回答已采纳

3回答

PySpark:如何将逗号指定为十进制

、、

我正在使用PySpark并加载一个csv文件。我有一个带有欧洲格式数字的列，这意味着逗号代替了点，反之亦然。例如:我使用2.416,67而不是2,416.67。 My data in .csv file looks like this - ID; Revenue 21; 2.645,45 23; 31.147,05 . . 55; 1.009,11 在熊猫中，通过在decimal=','和thousands='.'选项中指定pd.read_csv()来读取欧洲格式，可以轻松地读取这样的文件。 Pandas代码： import pa

浏览 0提问于2018-10-08得票数 13

回答已采纳

1回答

如何在spark-avro 2.4模式中设置logicalType？

、、、

我们从应用程序中的avro文件中读取时间戳信息。我正在测试从Spark 2.3.1升级到Spark 2.4的过程，其中包括新内置的spark-avro集成。然而，我不知道如何告诉avro模式，我希望时间戳具有"timestamp-millis“的logicalType，而不是默认的"timestamp-micros”。从使用Databricks spark-avro 4.0.0包查看Spark 2.3.1下的测试avro文件来看，我们有以下字段/模式： {"name":"id","type":["string"

浏览 36提问于2019-02-07得票数 2

回答已采纳

3回答

如何在Java中从avro文件中提取模式

、、

在Java中，如何先从avro文件中提取模式，然后再从其中提取数据？除了在java中，与问题相同。我见过如何从avsc文件而不是avro文件获取模式的示例。我应该朝哪个方向看？ Schema schema = new Schema.Parser().parse( new File("/home/Hadoop/Avro/schema/emp.avsc") );

浏览 0提问于2017-08-04得票数 25

回答已采纳

1回答

如何将PySpark RDD转换为具有未知列的Dataframe？

、、、

我是通过从RDD中的文本文件加载数据来创建PySpark的。现在，我想将这个RDD转换成一个dataframe，但是我不知道RDD中有多少列和列。我正在尝试使用createDataFrame()和语法，因为它是sqlDataFrame = sqlContext.createDataFrame(rdd, schema)。我试图了解如何创建schema，但大多数示例都显示了一个硬编码模式创建示例。现在，由于我不知道列是什么，所以如何将rdd转换为dataframe？到目前为止，我的代码如下： from pyspark import SQLContext sqlContext = SQLContex

浏览 9提问于2017-04-07得票数 2

3回答

如何在python中提取avro文件的模式

、、

我正在尝试使用Python Avro library ()来读取由JAVA生成的AVRO文件。既然模式已经嵌入到avro文件中，为什么我需要指定一个模式文件？有没有办法自动提取它？发现了另一个叫做fastavro()的包可以提取avro模式。手册中指定的是python arvo包中的schema文件吗？非常感谢。

浏览 0提问于2014-07-29得票数 13

1回答

AVRO文件中缺少的数据

我正在尝试将一些CSV文件转换为AVRO文件。我编写的代码在我测试过的许多CSV文件上运行得很好，但是在一些文件中，我发现AVRO文件中缺少一些数据。下面是csv->avro转换中的代码大纲。我使用的是C库的1.7.5 // initialize line counter lineno = 0; // make a schema first avro_schema_from_json_length (...); // make a generic class from schema iface = avro_generic_class_from_schema( schema );

浏览 2提问于2014-01-27得票数 0

回答已采纳

0回答

模块“avro.schema”没有属性“parse”

、、

我是python的新手，我正在尝试编写一个简单的代码来将文本文件转换为avro。我得到了这个模块找不到的错误。我可以在schema.py文件中清楚地看到解析模块存在。如果有人能帮我理解我可能做错了什么，我将不胜感激。 import avro.schema, csv, codecs from avro.datafile import DataFileReader, DataFileWriter from avro.io import DatumReader, DatumWriter def unicode_csv_reader(unicode_csv_data, dialect=csv.ex

浏览 1提问于2016-12-31得票数 13

2回答

每当我重新启动系统时，它都显示'utf-8‘编解码器无法解码kafka中的字节0x98到spark

、、、、

这是我从kafka获取数据到spark streaming的代码。首先，它在运行，但当我重新启动系统时，它再次显示以下错误： UnicodeDecodeError：'utf-8‘编解码器无法解码位置5中的字节0x98 :无效的起始字节 from pyspark import SparkContext from pyspark.streaming import StreamingContext from pyspark.streaming.kafka import KafkaUtils from pyspark.streaming.kafka import KafkaUtils fro

浏览 41提问于2019-12-19得票数 2

2回答

Pyspark读取csv

、、

新的pyspark，并希望读取csv文件到数据帧。看起来不能读。有什么帮助吗？ from pyspark.sql import SQLContext import pyspark from pyspark.sql import Row import csv sql_c = SQLContext(sc) rdd = sc.textFile('data.csv').map(lambda line: line.split(",")) rdd.count() ()中的Py4JJavaError回溯(最近一次调用)->1 rdd.count()

浏览 3提问于2018-05-14得票数 1

回答已采纳

1回答

火花csv读取器:不能读取尾随点和零为整数的数字

、、

所以我有一个csv文件，它的数字是整数，但尾随着.0。 Category,ItemID Category A,1.0 Category B,2.0 Category C,3.0 Category A,4.0 Category B,5.0 当我的用户触发csv读取器，给出一个将列指定为整数的模式时，它返回null。 from pyspark.sql.functions import col schema = StructType([ StructField('Category', StringType(), False), StructField('It

浏览 6提问于2022-01-01得票数 1

回答已采纳

1回答

Apache :如何使用保存在"avro.schema“属性中的模式从CSV文件创建拼花文件

、、

我正在尝试使用Apache从CSV文件创建一个parquet文件。我能够将CSV转换为parquet文件，但问题是，这个parquet文件的模式包含struct类型(我需要克服这种结构类型)，并将其转换为string类型。我在Windows 2016上使用Apache 1.14.0。到目前为止，我一直试图把CSV转换成地板. 我使用了下面的3个控制器 CSVReaderCSVRecordSetWriterParquetRecordSetWriter ，这些是处理器/Flow GetFileConvertRecord(CSVReader到CSVRecordSetWriter，这将自动生成&

浏览 3提问于2021-08-02得票数 0

回答已采纳

1回答

如何使用spark toLocalIterator从集群中写入本地文件系统中的单个文件

、、

我有一个pyspark作业，它将结果数据帧写入本地文件系统中。目前它在local模式下运行，所以我执行coalesce(1)来获取单个文件，如下所示 file_format = 'avro' # will be dynamic and so it will be like avro, json, csv, etc df.coalesce.write.format(file_format).save('file:///pyspark_data/output') 但我发现了很多内存问题(OOM)，而且也需要更长的时间。因此，我希望以yarn身份运行此作业

浏览 68提问于2020-08-26得票数 0

1回答

当使用PySpark在CSV中读取时，是否可以覆盖一种列类型？

、、

我试图使用PySpark读取包含多列的CSV文件。inferschema选项非常适合推断大多数列的数据类型。如果我只想覆盖被错误推断的列类型之一，那么最好的方法是什么？我可以使用这段代码，但它使PySpark只导入了模式中指定的一个列，这是我不想要的。 schema = StructType() \ .add("column_one_of_many", StringType(), True) spark.read.format('com.databricks.spark.csv') \ .option('delimited'

浏览 1提问于2021-08-27得票数 2

回答已采纳

2回答

在火花壳中使用avro时的NoClassDefFoundError

、、

我一直在 java.lang.NoClassDefFoundError: org/apache/avro/mapred/AvroWrapper 当对一个show()对象调用DataFrame时。我正试图通过外壳(火花壳-主纱)来完成这个任务。我可以看到，shell在创建DataFrame对象时识别模式，但是如果我对数据执行任何操作，它总是在尝试实例化NoClassDefFoundError时抛出AvroWrapper。我尝试将avro-mapred-1.8.0.jar添加到集群的$HDFS_USER/lib目录中，甚至在启动shell时使用-jar选项将其包括在内。这两个选项都不起作用

浏览 1提问于2016-06-10得票数 1

回答已采纳

1回答

Avro genericdata.Record忽略数据类型

、、、

我有以下avro模式 { "namespace": "example.avro", "type": "record", "name": "User", "fields": [ {"name": "name", "type": "string"}, {"name": "favorite_number", "type"

浏览 3提问于2015-09-25得票数 1

回答已采纳

1回答

CSV -avro.io.AvroTypeException中的Avro :数据不是模式的示例。

、

我是阿夫罗的新手。我试图解析一个包含一个字符串值和一个int值的简单CSV文件，但是我得到了错误：avro.io.AvroTypeException:数据不是模式的示例我使用的模式是： {"namespace": "paymenttransaction", "type": "record", "name": "Payment", "fields": [ {"name": "TransactionId", "type":

浏览 0提问于2018-05-11得票数 1

回答已采纳

1回答

以数字/整数开头的Avro字段名

、、

我想要创建一个Avro模式，它的列名为123或342等。我试图创建一个以"`“括起来的模式，如下所示： val dataTypeMap = Map( "int"-> Type.INT, "long"->Type.LONG, "java.lang.Double" -> Type.DOUBLE, "java.lang.Boolean" -> T

浏览 0提问于2018-12-07得票数 0

2回答

在批处理模式下获取消息头

、、、

在春季云流卡夫卡应用程序中，当以常规模式使用消息时，我会正确地获得带有有效负载和自定义头的消息。然而，当我将使用者"headerMode“设置为true，将函数的输入类型设置为List<?> (根据文档)时，我会得到一个有效负载列表。如何获得包含头和有效负载的消息列表？当设置集合类型时(例如，List<Message<MyType>>，它总是在运行时只返回有效载荷(List<MyType>) )。 application.yaml： spring: cloud: function: definition: fun

浏览 20提问于2021-12-05得票数 0

2回答

如何在Avro模式中嵌套记录？

、

我正在尝试让Python解析Avro模式，如下所示…… from avro import schema mySchema = """ { "name": "person", "type": "record", "fields": [ {"name": "firstname", "type": "string"}, {"name": "lastnam

浏览 0提问于2012-08-02得票数 37

回答已采纳

3回答

正在获取TypeError("StructType无法接受类型%s中的对象%r“% (obj，类型(Obj)

、、、、

我正在创建一个spark会话(spark版本2.2.1)，如下所示 SparkS = SparkSession.builder\ .appName("Test")\ .master("local[*]")\ .getOrCreate() 然后创建sparkcontext，如下所示 raw_data = SparkS\ .sparkContext\ .textFile("C:\\Users\\...\\RawData\\nasdaq.csv") 出于验证目的，我使用以下命令打印数据： print(raw_da

浏览 0提问于2018-01-23得票数 4

3回答

如果字段顺序更改，Avro模式不兼容

、、

场景-客户端使用序列化POJO，并将GenericRecord写入文件。通过反射得到的模式如下(注意排序A，B，D，C) - { "namespace": "storage.management.example.schema", "type": "record", "doc": "Example schema for testing", "name": "Event", "fields": [ .... .... { &#

浏览 6提问于2017-08-24得票数 7

2回答

如何在单个MapReduce中读取多种类型的Avro数据

、、、、

我有两种不同类型的Avro数据，它们有一些共同的字段。我想读一下地图中那些常见的字段。我想通过在集群中生成一个作业来阅读这篇文章。。下面是示例avro模式方案1： {“类型”：“记录”，“名称”：“测试”，“命名空间”：“com.abc.schema.SchemaOne”，“doc”：“使用先生存储模式”，“字段”：[{“名称”：“EE”，“类型”：“字符串”，“默认”：null}，{“名称”：“AA”，“类型”：“空”，“长”，“默认”：空}，{“名称”：“BB”，“类型”：“空”、“字符串”、“默认”：空}、{“名称”：“CC”、“类型”：“空”、“字符串”、“默认”：null}

浏览 2提问于2014-04-23得票数 0

1回答

AVRO支持模式进化吗？

我试图了解AVRO是否支持以下情况下的模式演化。卡夫卡生产者使用schema1写作，然后再一次生产者使用schema2写作-一个新的字段添加了默认值Kafka消费者使用schema1?消费这两种信息。我能够成功地阅读第一条来自卡夫卡的信息，但对于第二条信息，我得到的是ArrayIndexOutOfBoundException。Ie -我正在使用schema1阅读第二条消息(用schema1编写)。这会不会不起作用？它是否总是总是首先更新消费者？其他选项是使用模式注册表，但我不想选择这种方式。因此，我想知道上述情况下的模式演变是否可行？

浏览 1提问于2022-08-11得票数 0

回答已采纳

1回答

将py4j.java_gateway.JavaObject转换为StructType pyspark

、、、

我正在调用scala库中的函数，如下所示，将avro schema转换为sqlschema。 schema = avroschema jvm_gateway = spark_context._gateway.jvm sqlSchema = jvm_gateway.org.apache.spark.sql.avro.SchemaConverters.toSqlType(schema).dataType() 并且sqlSchema的类型返回为。我想转换成pyspark.sql.types.StructType。有没有什么办法可以转换成这样的呢？我可以打印对象，预期的内容如下所示 StructT

浏览 40提问于2020-06-26得票数 0

1回答

Pandas dataframe to Spark dataframe“无法合并类型错误”

、、、、

我有csv数据，并使用read_csv创建了Pandas dataframe，并强制所有列为字符串。然后，当我尝试从Pandas数据帧创建Spark数据帧时，我得到了下面的错误消息。 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.types import * z=pd.read_csv("mydata.csv", dtype=str) z.info() <class 'pandas.core.frame.DataFrame'>

浏览 6提问于2016-08-06得票数 33

回答已采纳

1回答

如何用星火从csv文件中写入avro文件？

、、、、

当我试图从csv文件创建的DF中编写avro文件时，我面临着一个NullPointerException： public static void main(String[] args) { SparkSession spark = SparkSession .builder() .appName("SparkCsvToAvro") .master("local") .getOrCreate(); SQLContext context = new SQLContext(spark)

浏览 7提问于2017-05-09得票数 0

回答已采纳

2回答

阅读Kafka中的Avro格式消息- Pyspark结构化流

、、、

我正在尝试使用PySpark 2.4.3阅读Kafka的Avro消息。基于下面的堆栈over flow链接，可以转换为Avro格式(to_avro)，并且代码正在按预期工作。但是，from_avro并没有工作，而且在issue.Are下面，还有其他模块支持阅读来自卡夫卡的avro消息吗？这是Cloudra的分布环境。请对此提出建议。参考: 环境详细信息: 火花： / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.1.1.2.6.1.0-129

浏览 1提问于2019-11-21得票数 1

1回答

从红移读取火花DataFrame返回空DataFrame

、、、、

我在用： python 3.6.8spark 2.4.4 我使用EMR集群(emr-5.28.0)运行pyspark，并使用：pyspark --packages org.apache.spark:spark-avro_2.11:2.4.4 我在星火类路径中有以下几个罐子：我执行这段代码： url = "jdbc:redshift://my.cluster:5439/my_db?user=my_user&password=my_password" query = "select * from schema.table where trunc(timestam

浏览 2提问于2019-11-20得票数 2

回答已采纳

1回答

使用Avro抛出AvroRuntimeException格式错误的数据

、

我有以下代码： (defn parse-schema "Returns an Avro schema" ^Schema$RecordSchema [^String schema-file] (let [schema (File. schema-file)] (.parse (Schema$Parser.) schema-file))) (defn get-reader "Returns a DatumReader" ^SpecificDatumReader [^Schema$RecordSchema schema] (Speci

浏览 3提问于2017-02-17得票数 1

回答已采纳

1回答

使用类生成Avro消息

、、、

从现在起，我从avsc架构文件创建avro消息。使用下面的代码片段 static byte[] fromJasonToAvro(String json, String schemastr) throws Exception { InputStream input = new ByteArrayInputStream(json.getBytes()); DataInputStream din = new DataInputStream(input); Schema schema = Schema.parse(schemastr);

浏览 0提问于2021-05-16得票数 0

1回答

如何在spark中读取压缩的avro文件(.gz)？

、、、

我正在尝试使用spark读取一个gzip (.gz扩展名) avro文件，但是我得到了下面的错误。我从文档中看到，spark应该能够在没有任何额外转换的情况下读取.gz文件(可能是针对csv/文本文件)。我尝试运行下面的命令，但它给出了错误： df= spark.read.format("com.databricks.spark.avro").load("/user/data/test1.avro.gz") 错误： Traceback (most recent call last): File "<stdin>", line

浏览 44提问于2021-01-26得票数 0

2回答

将单元表导出到.avro文件

、、、

我创建了一个外部蜂巢表，如下所示： CREATE EXTERNAL TABLE some_hive_table ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' STORED AS INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'

浏览 0提问于2014-03-04得票数 3

回答已采纳

1回答

如何读取和操作Avro模式(avsc格式)

、、

我想使用Avro模式并在python中读取它。无法读取架构。它抛出了一个错误 import avro.schema from avro.datafile import DataFileReader, DataFileWriter from avro.io import DatumReader, DatumWriter schema = avro.schema.Parse(open("user.avsc","rb").read()) schema_1=schema.meta print(schema_1)

浏览 9提问于2018-06-22得票数 0