如何在spark中读取压缩的avro文件(.gz)？_在Spark中读取压缩的xml文件_用Pyspark内核读取Jupyter notebook中的Spark Avro文件 - 腾讯云开发者社区

python、apache-spark、pyspark、gzip

我正在尝试使用spark读取一个gzip (.gz扩展名) avro文件，但是我得到了下面的错误。我从文档中看到，spark应该能够在没有任何额外转换的情况下读取.gz文件(可能是针对csv/文本文件)。我尝试运行下面的命令，但它给出了错误： df= spark.read.format("com.databricks.spark.avro").load("/user/data/test1.avro.gz") 错误： Traceback (most recent call last): File "<stdin>", line

浏览 44提问于2021-01-26得票数 0

2回答

在多个文件夹中压缩相同压缩文件名的多个gz文件

command-line、wildcards、zip、gzip、gunzip

我有一个目录，其中有多个文件夹，每个文件夹包含多个具有相同压缩文件名的.gz文件"spark.log“。我如何一次解压缩所有这些文件并将它们重命名为gz文件？我的数据是这样的文件夹列表 A B C D 在其中的每一个文件中， A spark.log.gz spark.log.1.gz spark.log.2.gz spark.log.3.gz B spark.log.gz spark.log.1.gz spark.log.2.gz spark.log.3.gz C spark.log.gz spark.log.1.gz spark.log.2.gz spark.log.3.gz D

浏览 0提问于2022-10-07得票数 3

回答已采纳

1回答

如何在R中使用sparklyr打开"GZ文件“？

r、apache-spark、rstudio、sparklyr、gzip

我想使用sparklyr包打开gz文件，因为我在R上使用Spark。我知道我可以使用read.delim2(gzfile("filename.csv.gz"), sep = ",", header = FALSE)打开gz文件，我也可以使用spark_read_csv打开csv文件，但当我尝试在Spark中打开gz文件时，两者都不起作用。请帮帮我！

浏览 18提问于2019-01-23得票数 2

回答已采纳

1回答

avro分区如何在内部进行剪枝？

apache-spark、parquet、spark-avro

我每天都有一份工作，把阿夫罗变成地板。每小时的Avro文件为20G，在读取avro文件时按年、月、日和小时划分，如下所示，spark.read.format("com.databricks.spark.avro").load(basePath).where($year=2020 and $month=9 and $day=1 and $hour=1).write.paritionBy(paritionCol).parquet(path) --作业运行时间为1.5小时Note：整个文件夹basePath有36 TB的avro格式数据。但是，对于相同的火花配置(内存和实例等)，下

浏览 5提问于2020-09-28得票数 1

3回答

如何在PySpark中读取Avro文件

python、apache-spark、avro、pyspark

我正在写一个使用python的spark作业。然而，我需要读入一大堆avro文件。是我在Spark的example文件夹中找到的最接近的解决方案。但是，您需要使用spark-submit提交此python脚本。在spark-submit的命令行中，你可以指定driver- class，在这种情况下，所有的avrokey，avrovalue类都会被定位。 avro_rdd = sc.newAPIHadoopFile( path, "org.apache.avro.mapreduce.AvroKeyInputFormat",

浏览 5提问于2015-04-21得票数 14

回答已采纳

3回答

如何用pyspark读取gz压缩文件

python、apache-spark、pyspark

我有.gz压缩格式的行数据。我不得不用pyspark来读它，下面是代码片段 rdd = sc.textFile("data/label.gz").map(func) 但我无法成功读取上述文件。如何读取gz压缩文件？我发现了一个类似的问题，但我当前版本的spark与该问题中的版本不同。我希望在hadoop中应该有一些内置的函数。

浏览 0提问于2017-03-13得票数 12

回答已采纳

2回答

将avro文件压缩为gzip (.gz)压缩

python-3.x、google-bigquery、google-cloud-storage、gzip、avro

我是avro和.gzip文件的新手。我正在尝试压缩avro文件，以获得更快的文件加载时间从谷歌云存储到BigQuery。我已经试着用谷歌搜索过了，但是我没有得到答案。请帮助我如何压缩avro文件到gzip (.gz)压缩。

浏览 38提问于2021-05-07得票数 3

回答已采纳

1回答

如何在spark-avro 2.4模式中设置logicalType？

scala、apache-spark、avro、spark-avro

我们从应用程序中的avro文件中读取时间戳信息。我正在测试从Spark 2.3.1升级到Spark 2.4的过程，其中包括新内置的spark-avro集成。然而，我不知道如何告诉avro模式，我希望时间戳具有"timestamp-millis“的logicalType，而不是默认的"timestamp-micros”。从使用Databricks spark-avro 4.0.0包查看Spark 2.3.1下的测试avro文件来看，我们有以下字段/模式： {"name":"id","type":["string"

浏览 36提问于2019-02-07得票数 2

回答已采纳

2回答

Dataproc无法解压缩由AWS Kinesis压缩的.gz文件

apache-spark、google-cloud-platform、google-cloud-dataproc

我的公司正在尝试将服务从AWS迁移到GCP。我们面临着一些问题。AWS Kinesis收集的数据是.gz文件。我们使用GCP的云存储将这些文件传输到GCP平台，并使用Dataproc对这些数据进行处理。所有这些数据都可以在AWS中正确处理，但无法由同一Spark作业正确读取。参见末尾抛出的异常。我尝试在GCP Cloud Shell中解压其中一个文件，比如ABC.gz。解压缩后的文件仍然以.gz：ABC.gz结尾。我认为这是根本原因，因为Spark可能试图解压解压后的文件。如果我们通过删除.gz后缀来重命名这些文件，那么Spark就可以正常运行。但是，重命名过程太耗时，需要几个小时以上

浏览 39提问于2020-01-20得票数 1

回答已采纳

1回答

从avro文件中获取火花dataframe列中每一行的数据

dataframe、scala、apache-spark

我正在尝试处理我的dataframe中的一个列，并从每个条目对应的avro文件中检索一个度量。基本上，我想做以下几点：读取路径列的每一行，这是作为数据读取到avro文件中的avro文件的路径&获取精度度量，它以Struct的形式创建一个名为的新列，该列具有精度度量。这也可以看作是应用spark.read.format("com.databricks.spark.avro").load(avro_path)，但适用于Path列中的每一行。这是我的输入数据： +----------+-----+--------------------------+ |timestam

浏览 4提问于2022-07-01得票数 0

1回答

如何使用spark DF或DS读取".gz“压缩文件？

apache-spark、apache-spark-sql、gzip、apache-spark-dataset

我有一个.gz格式的压缩文件，是否可以使用spark DF/DS直接读取该文件？详细信息:文件是以制表符分隔的csv格式。

浏览 1提问于2018-03-26得票数 11

回答已采纳

1回答

火花放电不缩放值太大，不适合精确火花

dataframe、pyspark、avro

我正在尝试用不同的模式读取由pyspark编写的avro文件。小数列精度的差异。下面是由pyspark编写的avro文件夹的文件夹结构 /mywork/avro_data/day1/part-* /mywork/avro_data/day2/part-* 下面是它们的模式 day1 = spark.read.format('avro').load('/mywork/avro_data/day1') day1.printSchema() root |-- price: decimal(5,2) (nullable = True) day2 = spark.re

浏览 4提问于2020-07-07得票数 0

回答已采纳

3回答

PySpark :设置执行器/核心和内存本地机器

python、json、pyspark、apache-spark-sql、jupyter

因此，我查看了一堆关于Pyspark、Jupyter和设置内存/核心/执行器(以及相关内存)的帖子。但我好像被困住了- 问题1：我没有看到我的机器使用内核或内存。为什么？我是否可以对编译器/内核/内存做一些调整，以优化读取文件的速度？问题2:还有什么方法可以让我看到一个进度条，显示导入了多少文件ahs (火花监视器似乎做不到)。我正在导入一个33.5gb的文件到火星雨。机器有112 gb或RAM 8核/16个虚拟核。 from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appNam

浏览 0提问于2020-08-13得票数 11

回答已采纳

1回答

如何用Hadoop处理.gz输入文件？

hadoop、zip、gzip、hadoop2、hadoop-partitioning

请允许我提供一个设想： hadoop jar test.jar Test inputFileFolder outputFileFolder 哪里 test.jar按键、时间和地点对信息进行排序 inputFileFolder包含多个.gz文件，每个.gz文件大约10 is。 outputFileFolder包含大量.gz文件我的问题是，在.gz中处理这些inputFileFolder文件的最佳方法是哪一种？谢谢!

浏览 1提问于2015-11-05得票数 0

回答已采纳

2回答

将tar.gz压缩的多个文件读入Spark

scala、apache-spark、gzip、rdd

我正在尝试从几个压缩成tar的json文件创建一个Spark。例如，我有3个文件 file1.json file2.json file3.json 这些都包含在archive.tar.gz中。我想从json文件中创建一个dataframe。问题是Spark没有正确读取json文件。使用sqlContext.read.json("archive.tar.gz")或sc.textFile("archive.tar.gz")创建RDD会导致错误/额外的输出。是否有办法处理星火中包含多个文件的gzipped档案？更新使用的答案中给出的方法，我能够让事情运行，但这

浏览 3提问于2016-07-28得票数 9

回答已采纳

1回答

我可以告诉spark.read.json我的文件是用gzipped压缩的吗？

apache-spark、pyspark

我有一个s3存储桶，里面有将近100k个gzipped的JSON文件。这些文件被称为[timestamp].json，而不是更合理的[timestamp].json.gz。我有其他使用它们的进程，所以重命名不是一个选项，复制它们甚至更不理想。我正在使用spark.read.json([pattern])来读取这些文件。如果我将文件名重命名为包含.gz，则可以正常工作，但扩展名仅为.json，因此无法读取它们。有没有办法告诉spark这些文件是用gzipped压缩的？

浏览 1提问于2018-09-10得票数 9

1回答

如何在pyspark dataframe读取方法中包含分区列

apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我正在写一个基于Avro文件的拼图文件。我已经阅读了如下文件：读取数据 dfParquet = spark.read.format("parquet").option("mode", "FAILFAST") .load("/Users/rashmik/flight-time.parquet") 写入数据我已经以Avro格式编写了如下文件： dfParquetRePartitioned.write \ .format("avro") \ .mode("overwrite"

浏览 18提问于2020-08-22得票数 0

回答已采纳

2回答

用数据库从Azure数据湖读取avro数据--由Azure EventHubs捕获生成的EventHubs失败

azure、pyspark、azure-eventhub、azure-databricks、azure-eventhub-capture

我正在尝试从Azure数据湖Gen1中读取avro数据，该数据是从Azure EventHubs生成的，Azure事件集线器捕获是在Azure数据库中启用的： inputdata = "evenhubscapturepath/*/*" rawData = spark.read.format("avro").load(inputdata) 以下语句失败 rawData.count() 使用 org.apache.spark.SparkException: Job aborted due to stage failure: Task 162 in stage 48.

浏览 3提问于2019-12-01得票数 1

回答已采纳

1回答

使用缺少的依赖项将csv转换为.avro

python、csv、apache-spark、pyspark、avro

我有一个Python脚本，它使用fastavro库来转换csv文件并根据提供的模式序列化它： from fastavro import writer from fastavro.schema import load_schema import csv schema = load_schema('schema.avsc') def csv_reader(): with open('data.csv') as f: yield from csv.DictReader(f) with open('data.snappy.avro&#

浏览 1提问于2021-09-21得票数 0

1回答

如何将file.deflate.gz文件加载到火花数据中？

apache-spark、spark-dataframe

我有delflate.gz格式的源文件压缩。当将数据加载到Spark时，它在ArrayOutofBound异常下失败。 val cf = spark.read.option("header", "false").option("delimiter", "\u0001").option("codec", "deflate").csv("path/xxx.deflate.gz") cf.show() 错误： org.apache.spark.SparkException:由于阶段失败而

浏览 4提问于2017-08-17得票数 0

2回答

强制Spark并行计算

json、apache-spark

使用Spark 1.6.2，从普通文件系统读取gzip压缩的JSON文件： val df = sqlContext .read .json("file:///data/blablacar/transactions.json.gz") .count() 将在单个worker上使用单个任务。但是如果我保存了这个文件： sc.textFile("file:///data/blablacar/transactions.json.gz") .saveAsTextFile("file:///user/blablacar/transa

浏览 1提问于2018-01-18得票数 0

1回答

火花: Avro与Parquet的表演

apache-spark、avro、parquet

既然Spark2.4已经内置了对Avro格式的支持，我正在考虑更改我的数据湖中的一些数据集的格式--那些通常是针对整行而不是特定列聚合而被查询/连接的数据集的格式--从Parquet到Avro。然而，大部分数据上的工作都是通过Spark完成的，据我所知，Spark的内存缓存和计算都是在列式数据上完成的。在这方面，Parquet是否提供了性能提升，而Avro将招致某种数据“转换”处罚？在这方面，我还应注意到哪些其他因素？

浏览 0提问于2018-12-01得票数 5

回答已采纳

1回答

BigQuery从云存储加载压缩数据

gzip、google-bigquery、google-cloud-storage、avro

我的中有很多*.gz文件。我想将这些数据加载到BigQuery。我试着执行 bq load --source_format=AVRO projectId:dataset.table gs://bucket/*.gz 但接收错误 The Apache Avro library failed to parse file gs://bucket/f92d8ae3-6eba-4e35-9fc0-b8f31b4b9881-part-r-00004.gz. 是否可以将压缩数据上传到BigQuery？解决这些问题的最佳方法是什么？

浏览 2提问于2016-06-09得票数 0

回答已采纳

1回答

使用通配符的spark read blob存储

apache-spark、azure-blob-storage、databricks、azure-databricks

我想使用databricks将Azure Blob存储文件读取到spark中。但我不想为每一层嵌套设置特定的文件或*。标准：**/*/不工作。这些方法工作得很好： val df = spark.read.format("avro").load("dbfs:/mnt/foo/my_file/0/2019/08/24/07/54/10.avro") val df = spark.read.format("avro").load("dbfs:/mnt/foo/my_file/*/*/*/*/*/*") 失败，出现以下错误： java

浏览 10提问于2019-08-24得票数 2

3回答

星星之火:在没有com.databricks.spark.avro的情况下读取avro文件

apache-spark

我想在spark中读取avro文件，但不幸的是，我的公司中的集群没有com.databricks.spark.avro。所以我试着 spark-shell --package com.databricks:spark-avro_2.10:0.1. 这就产生了未解决的依赖关系。 import com.databricks.spark.avro._ is not supported. 也试过 spark-shell --jar spark-avro_2.11-3.2.0.jar 这不会打开外壳。 spark.read.format("com.databricks.spark.avro

浏览 1提问于2018-03-28得票数 3

回答已采纳

1回答

如何在Databricks中迭代以读取数据湖中存储在不同子目录中的数百个文件？

apache-spark、pyspark、apache-spark-sql、databricks、azure-databricks

我必须从Azure数据湖Gen2中读取数据库中的数百个avro文件，从每个文件中的Body字段中提取数据，并将所有提取的数据连接在一个唯一的数据中。要点是，所有要读取的avro文件都是存储在湖中不同子目录中的，如下所示：根/YYYY/mm/DD/HH/mm/ss.avro 这迫使我循环摄取和选择数据。我正在使用这个Python代码，其中list_avro_files是指向所有文件的路径列表： list_data = [] for file_avro in list_avro_files: df = spark.read.format('avro').load(file_

浏览 3提问于2020-06-17得票数 0

回答已采纳

1回答

PySpark:读取gzipped文件时为空RDD

mongodb、pyspark、bson

我有一个脚本来分析BSON转储，但是它只适用于未压缩的文件。在读取gz bson文件时，我得到了一个空的RDD。 pyspark_location = 'lib/pymongo_spark.py' HDFS_HOME = 'hdfs://1.1.1.1/' INPUT_FILE = 'big_bson.gz' class BsonEncoder(JSONEncoder): def default(self, obj): if isinstance(obj, ObjectId): return s

浏览 2提问于2016-04-27得票数 0

1回答

快速压缩

apache-spark、hadoop、apache-spark-sql、parquet、snappy

我正在尝试将avro文件存储为具有快速压缩的parquet文件。虽然使用filename.snappy.parquet将数据写为拼接，但文件大小保持不变。粘贴代码。代码： sqlContext.setConf("spark.sql.parquet.compression.codec","snappy") orders_avro.write.parquet("/user/cloudera/problem5/parquet-snappy-compress")

浏览 1提问于2018-08-15得票数 0

2回答

如果列值依赖于文件路径，那么在一次读取多个文件时，是否有一种方法将文本作为列添加到中？

scala、apache-spark、parallel-processing、apache-spark-sql、databricks

我正试着把很多avro文件读入火花数据格式。它们都共享相同的s3 filepath前缀，所以最初我运行的是如下所示： path = "s3a://bucketname/data-files" df = spark.read.format("avro").load(path) 成功地识别了所有的文件。各个文件如下所示： "s3a://bucketname/data-files/timestamp=20201007123000/id=update_account/0324345431234.avro" 在试图操作数据时，代码会不断出错，并发出一条消

浏览 5提问于2020-10-07得票数 1

回答已采纳

1回答

PySpark无法从Pycharm读取本地Avro文件

apache-spark、pyspark

我有一个示例avro文件，并运行一个基本的spark应用程序来读取它： spark = SparkSession \ .builder \ .appName("app") \ .getOrCreate() avro_data = spark.read \ .format("org.apache.spark.sql.avro.AvroFileFormat") \ .load("avro-to-orc-jobs/association-complete-rebuild/avro") ╰─ venv/bin/s

浏览 1提问于2021-11-03得票数 1

3回答

PySpark3从https url读取文件

python、apache-spark、pyspark

PySpark中是否有从.tsv.gz中读取.tsv.gz的方法？ from pyspark.sql import SparkSession def create_spark_session(): return SparkSession.builder.appName("wikipediaClickstream").getOrCreate() spark = create_spark_session() url = "https://dumps.wikimedia.org/other/clickstream/2017-11/clickstream-jawik

浏览 7提问于2021-09-25得票数 1

回答已采纳

1回答

如何在spark中解压和读取包含多个压缩文件的文件

scala、apache-spark、bigdata

我有一个文件AA.zip，它同样包含多个用于ex aa.tar.gz、bb.tar.gz等的文件我需要在spark scala中读取这个文件，我该如何实现？这里唯一的问题是提取zip文件的内容。

浏览 0提问于2018-11-20得票数 0

2回答

如何使用Avro.snz访问C#文件中的数据

c#、avro、snappy、spark-avro

我有一个Avro.snz文件，它的avro.codecs是snappy --它可以在Spark中用com.databricks.avro打开，但是看起来snappy不受Apache.Avro和Confluent.Avro的支持，它们只有压缩和空。虽然他们可以给我模式，但我不能得到数据。下一个方法获取并出错。Ironsnappy也无法解压缩该文件，它表示输入是 using (Avro.File.IFileReader<generic> reader = Avro.File.DataFileReader<generic>.OpenReader(avro_path)) {

浏览 8提问于2020-06-24得票数 0

回答已采纳

1回答

通过PySpark在Avro上启用压缩

compression、pyspark、avro、snappy、spark-avro

使用PySpark，我试图保存一个Avro压缩文件(最好是snappy)。这行代码成功地保存了一个264MB的文件： df.write.mode('overwrite').format('com.databricks.spark.avro').save('s3n://%s:%s@%s/%s' % (access_key, secret_key, aws_bucket_name, output_file)) 当我添加编解码器选项.option('codec', 'snappy')时，代码成功运行，但文件大小仍为26

浏览 13提问于2017-02-28得票数 1

1回答

BigQuery将数字数据类型导出为AVRO中的二进制数据类型

apache-spark、google-bigquery、avro

我正在从BigQuery表中导出数据，该表将名为prop12的列定义为数字数据类型。请注意，目标格式为AVRO，不能更改。 bq extract --destination_format AVRO datasetName.myTableName /path/to/file-1-*.avro 当我读取avro数据时，使用spark无法将此数字数据类型转换为Integer。 --prop12: binary (nullable = true) cannot resolve 'CAST(`prop12` AS INT)' due to data type mismatch: can

浏览 0提问于2019-06-18得票数 0

2回答

如何在蜂窝表中插入具有映射列的数据帧

apache-spark、hadoop、hive、apache-spark-sql、complextype

我有一个包含多个列的dataframe，其中一个列是map(string，string)类型。我能够打印这个数据，有列作为地图，给数据地图(“双关”-> "Pune")。我想要将这个dataframe写到hive表(存储为avro)，该表具有与map类型相同的列。 Df.withcolumn("cname", lit("Pune")) withcolumn("city_code_name", map(lit("PUN"), col("cname")) Df.show(false) //tab

浏览 4提问于2020-02-27得票数 0

2回答

Avro模式引发StructType

java、apache-spark、apache-spark-sql、avro

这实际上与我的相同，但使用Avro而不是JSON作为数据格式。我正在使用一个Spark dataframe，它可以从几个不同的模式版本中加载数据： // Version One {"namespace": "com.example.avro", "type": "record", "name": "MeObject", "fields": [ {"name": "A", "type": ["null",

浏览 1提问于2015-11-25得票数 7

2回答

如何在Spark2.4中读取闪烁2-shell中的Avro文件？

apache-spark、apache-spark-sql

我们在Spark2.4中在spark2-shell中读取avro文件时遇到了问题，任何指针都会有很大帮助。我们使用以下方法读取Spark2.4 2.3中的avro文件，但这种支持在Spark2.4中已被删除： spark2-shell --jars /tmp/spark/spark-avro_2.11-4.0.0.jar import org.apache.avro.Schema spark.sqlContext.sparkContext.hadoopConfiguration.set("avro.mapred.ignore.inputs.without.extension"

浏览 4提问于2020-01-24得票数 2

回答已采纳

1回答

通过spark dataframe读取S3文件时，粘合书签不起作用

amazon-web-services、amazon-s3、pyspark、aws-glue

我有一个存储.gz文件(json格式)的S3存储桶。每小时将有更多的文件发送到此存储桶。我想使用Glue增量地(每天)从S3存储桶中读取数据，将.gz转换为拼接，然后写回另一个S3存储桶。我想我可以使用Glue书签来完成增量文件的读取/转换/写入。然而，我发现如果我读取spark dataframe中的.gz文件，书签就不起作用了。换句话说，我的下面的胶水作业不会以增量方式读取文件。它读取该存储桶中的所有文件。我确实在胶水作业中启用了Bookmark。我错过了什么吗？是否需要通过glue动态数据帧而不是spark数据帧读取文件？我实际上不知道如何通过glue动态数据帧正确读取.gz文件

浏览 24提问于2020-12-30得票数 1

1回答

如何在spark dataframe中加载avro时合并模式？

apache-spark、pyspark、avro

我正在尝试使用读取avro文件，avro模式随着时间的推移而演变。我在mergeSchema选项设置为true的情况下读到了这篇文章，希望它能合并模式本身，但这并不起作用。 sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/') 周围的工作是什么？

浏览 5提问于2015-12-30得票数 7

1回答

用于火花的HDFS Config

apache-spark、hadoop、pyspark

我想用pyspark从HDFS读取一个文件。守则如下： import numpy as np import pandas as pd from pyspark.sql import SparkSession import json import sys import io import os os.environ["HADOOP_USER_NAME"] = "hdfs" spark = SparkSession.builder.master("local") \ .appName('PySpar

浏览 14提问于2022-05-04得票数 0

3回答

如何在spark scala中将二进制字符串转换为scala字符串

string、scala、apache-spark、spark-dataframe

我正在读取一个avro文件，其中包含一个作为二进制字符串的字段，我需要将其转换为java.lang.string以将其传递到另一个库(spark-xml-util)，如何有效地将其转换为avro。这是我到目前为止得到的代码： val df = sqlContext.read.format("com.databricks.spark.avro").load("filePath/fileName.avro") df.select("myField").collect().mkString 最后一行给出了以下例外：- Exception

浏览 0提问于2017-08-03得票数 1

回答已采纳

1回答

读取pyspark数据帧中tar.gz文件中的特定csv文件

python、csv、apache-spark、pyspark、tar

我有这三个文件file_1.csv，file_2.csv，file_3.json里面的tar.gz文件。我想在spark数据帧中读取file_1.csv 如下所示： df = spark.read.csv("s3://my_bucket/key/my_file_.tar.gz/file_1.csv")

浏览 0提问于2019-06-07得票数 0

2回答

如何传递一组输入文件(而不是目录)来激发作业并在这些文件的基础上创建数据

scala、dataframe、apache-spark

我想传递一组avro文件作为输入，以激发作业，并在这些文件之上创建dataframe。(我不想将文件放在目录中并将目录作为输入传递)。在Spark中，我能够像下面这样成功地创建dataframe。 val DF = hiveContext.read.format("com.databricks.spark.avro").load("/data/year=2019/month=09/day=28/hour=01/data_1.1569650402704.avro","/data/year=2019/month=09/day=28/hour=01/data

浏览 4提问于2019-09-28得票数 0

回答已采纳

2回答

在火花壳中使用avro时的NoClassDefFoundError

apache-spark、spark-dataframe、spark-avro

我一直在 java.lang.NoClassDefFoundError: org/apache/avro/mapred/AvroWrapper 当对一个show()对象调用DataFrame时。我正试图通过外壳(火花壳-主纱)来完成这个任务。我可以看到，shell在创建DataFrame对象时识别模式，但是如果我对数据执行任何操作，它总是在尝试实例化NoClassDefFoundError时抛出AvroWrapper。我尝试将avro-mapred-1.8.0.jar添加到集群的$HDFS_USER/lib目录中，甚至在启动shell时使用-jar选项将其包括在内。这两个选项都不起作用

浏览 1提问于2016-06-10得票数 1

回答已采纳

1回答

读取Avro文件，一次一行。Python

pyspark、avro

上下文:我想把Avro文件读入Spark作为RDD。我想知道，如果我可以访问Avro数据模式，是否可以一次解析一行Avro文件。我正在使用pyspark来编写我的spark作业。我正在考虑使用sc.textfile来读入这个巨大的文件，如果我可以一次解析一行的话就可以进行并行解析。任何指向解析Avro文件的指针，一次一行，将非常感谢。

浏览 1提问于2015-12-12得票数 1

2回答

使用Kafka将拼花文件写入S3 Sink

apache-spark、pyspark、apache-kafka、apache-spark-sql

条件：代码应该读取卡夫卡主题中的消息，并将其写成S3中的拼花文件。在这里，我使用Pyspark编写了Kafka，并且我能够成功地将JSON文件写入s3接收器。 *工作守则：* 火花-2.4.4封装- org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.4 spark = SparkSession\ .builder \ .appName("Python-EMR-KAFKA") \ .config("spark.serializer", "org.apac

浏览 21提问于2022-04-22得票数 0

4回答

处理星火中的大型gzipped文件

apache-spark、gzip、amazon-emr

我有一个来自s3的大型(大约85 GB压缩)压缩文件，我正试图在AWS上使用Spark (现在有一个m4.xLarge主实例和两个m4.10xLargecore实例，每个实例都有一个100 GB的EBS卷)。我知道gzip是一种不可拆分的文件格式，认为应该重新划分压缩文件，因为Spark最初给出了一个带有一个分区的RDD。但是，在做完之后 scala> val raw = spark.read.format("com.databricks.spark.csv"). | options(Map("delimiter" -> "\

浏览 5提问于2016-11-08得票数 17

回答已采纳

2回答

如何在压缩的avro文件中获得每个avro记录的开始、结束和结束？

java、avro

我的问题是这个。我有一个2GB的快速压缩avro文件，大约有1000条avro记录存储在HDFS上。我知道我可以编写代码“打开这个avro文件”并打印出每个avro记录。我的问题是，在java中是否有一种方法可以说，打开这个avro文件，迭代每个记录并输出到一个文本文件中--在该avro文件中，每个记录的“开始位置”和“结束位置”，这样.我可以有一个java函数调用"readRecord( startposition，endposition)“，它可以使用启动位置和结束位置来快速读取一个特定的avro记录，而不必遍历整个文件？

浏览 0提问于2015-09-11得票数 2

3回答

java.io.IOException:不是数据文件

hadoop、apache-spark、avro

我正在处理一堆avro文件，这些文件存储在HDFS中的嵌套目录结构中。这些文件存储在年份/月/日/小时格式目录结构中。我编写了这个简单的代码来处理 sc.hadoopConfiguration.set("mapreduce.input.fileinputformat.input.dir.recursive","true") val rootDir = "/user/cloudera/rootDir" val rdd1 = sc.newAPIHadoopFile[AvroKey[GenericRecord], NullWritable, Avro

浏览 7提问于2015-11-01得票数 5

回答已采纳