Spark删除Apache Orc文件

、、、

jdk 1.8 scala 2.12.11 spark 3.0.1当我在scala spark中读取配置单元表并写入导出orc文件时它运行成功当我想从python pyspark中的句号导出orc文件中读取orc文件时，它正在成功运行。

浏览 29提问于2021-02-19得票数 1

1回答

在java中通过Spark存储orc格式

、、、

我正在使用spark 1.3.1，我想以ORC格式以蜂巢形式存储数据。 at scala.sys.package$.error(package.scala:27) at org.apac

浏览 5提问于2015-08-18得票数 0

回答已采纳

2回答

、

我使用spark shell将spark数据帧存储为orc-file，如下所示：我发现数据现在位于windows\system32\applicationsPartitioned中如何正确删除orc-file？我可以直接关闭spark并自行

浏览 18提问于2017-07-12得票数 0

回答已采纳

1回答

Spark-Scala无法推断模式(将输入路径验证推迟到DataSource)

、、、

加载空的orc文件夹时。不管怎样绕过这一步。val df = spark.read.format("orc").load(orcFolderPath) at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:223) at or

浏览 0提问于2018-11-11得票数 0

3回答

我在Spark中读取了许多ORC文件，并对其进行了处理，这些文件基本上都是Hive分区。大多数情况下，处理过程都很顺利，但对于少数文件，我得到了以下异常，不知道为什么？这些文件在使用配置单元查询的配置单元中工作得很好。org.apache.spark.sql.hive.orc.OrcTableScan.unwrapperFor(OrcRelation.scala:206) at org.apache.

浏览 1提问于2015-09-08得票数 1

1回答

在单元表中交换分区时出错

、

spark.sql("alter table base.dummy drop partition(dbsource='NEO4J')") .set("spark.sql.orc.filterPushdown", "true") .set("spark.serializer", "org.<em

浏览 0提问于2019-07-05得票数 1

回答已采纳

1回答

无法在星火中配置ORC属性

、、、、

我正在使用Spark1.6(Cloudera5.8.2)并尝试下面的方法来配置ORC属性。但它不会影响输出。 put("orc.compress.size","524288");put("hive.exec.orc.default.buffer.size"

浏览 0提问于2017-01-20得票数 3

回答已采纳

1回答

Spark FileAlreadyExistsException on Stage故障

、、、、

").save(path) at org.apache.orc.OrcFile.createWriter(OrcFile.java:843) at

浏览 33提问于2019-08-13得票数 6

回答已采纳

2回答

如何在Spark中设置ORC条带大小

、

我正在尝试在Spark(2.3)中生成一个数据集，并将其编写为ORC文件格式。我正在尝试为ORC条带大小和压缩大小设置一些属性。我从那里得到了一些提示，所以发了帖子。但是spark没有遵守这些属性，并且我在生成的ORC文件中的条带大小比我设置的要小得多。"overwrite") .format("org.apache.spark.sql.execution.datasources.orc</e

浏览 24提问于2018-08-29得票数 1

1回答

OrcRelation不能分配给HadoopFsRelation

、、、

: Provider org.apache.spark.sql.hive.orc.DefaultSource could not be instantiated at java.util.ServiceLoader.fail/spark/sql/hive/orc/DefaultSource.createRelation(Lorg/apache/spark/sql/SQLCo

浏览 10提问于2017-02-16得票数 4

回答已采纳

1回答

使用pySpark读取未存储在HDFS上的ORC文件

、、、、

我远程连接到一个数据蛋糕，使用Hive直线终端处理存储在Hadoop集群中的数据，并将数据以orc格式存储在HDFS上。然后，我将这个orc文件传输到我的本地系统，它没有任何Hadoop设置。我在本地机器上安装了spark，并使用pyspark读取orc文件的一个数据部分。我的orc文件在本地机器上具有以下文件结构： Partition-01-- 1.000000

浏览 23提问于2022-08-18得票数 -1

回答已采纳

1回答

将写入ORC文件引发错误

、、

我试图写一个Spark作为ORC文件，它抛出以下错误。我去叫IndexOutOfBoundsException..。<init>(OrcStruct.java:196) at org.apache.spark.sql.hive.orc.OrcSerializer.<i

浏览 0提问于2018-08-09得票数 0

1回答

在Java中将Avro转换为ORC？

、、、

我希望创建一个从卡夫卡消费的Avro消息一堆ORC文件。我在下面看到了一些使用Spark的示例代码。我只是在一个独立的进程中运行它，并且想知道我应该考虑什么类型的选项。例如，我想将这些文件放入S3这样的云存储中。有没有推荐的方法呢？frameWriter = events // useful if you want to change the schema before writing it to ORCoutputSchema.ge

浏览 43提问于2020-07-16得票数 0

1回答

在不使用配置单元的HDFS中以ORC格式存储avro数据

、、、

我比较存储avro数据到ORC和拼图格式，我得到了成功的存储Avro数据到镶木地板使用"com.twitter“% " Parquet - avro”% "1.6.0“，但找不到任何信息或API来存储avro数据在ORC格式。ORC是否仅与Hive紧密耦合？谢谢subahsh

浏览 0提问于2015-12-14得票数 1

1回答

星火任务未能将行写入ORC表

、、

(ResultTask.scala:87) at org.apache.spark.executor.Executor:2133) at org.apache.hadoop

浏览 8提问于2020-10-30得票数 4

4回答

如何在星火中创建架构文件

、、、

b.split(" ")(0).stripPrefix("\"").asInstanceOf[String],b.split(" ")(1).stripSuffix("\"").asInstanceOf[org.apache.spark.sql.types.DataType我得到的错误如下 Exception in thread "main" java.lang.UnsupportedOperationException: No Encod

浏览 1提问于2018-05-24得票数 5

回答已采纳

1回答

Spark加载ORC文件不使用Hive Metastore中的确切架构，导致类型转换错误

、、、

cannot be cast to org.apache.hadoop.io.LongWritableat

浏览 3提问于2019-11-28得票数 0

4回答

将Sqoop导入为OrC文件

、、

sqoop中是否有从RDMS导入数据并将其存储为HDFS中的ORC文件格式的选项？尝试的替代方案:以文本格式导入，并使用临时表将输入作为文本文件读取，然后作为配置单元中的orc写入hdfs

浏览 12提问于2015-05-01得票数 5

1回答

如何在星火2.3.3中使用orc-core-1.5.5？

、、、、

我的代码依赖于orc-core-1.5.5，我需要它在Spark-2.3.3环境下运行。但Spark-2.3.3只有orc-core-1.4.4。出于某种原因，我的案子不允许“--罐子”。但是当我将这个jar提交给Spark-2.3.3时，它仍然是java.lang.NoSuchMethodError: org.apache.orc.OrcFile$ReaderOptions.getUseUTCTimestamp我的应用程序似乎没有在我的jar中使用orc</

浏览 0提问于2019-08-21得票数 1

回答已采纳

1回答

将数据帧结果插入配置单元表时出现Spark异常

、、

) at org.apache.orc.TypeDescription.fromString(TypeDescription.java:406) at org.apache.spark.sql.execution.datasources.orc.OrcSerializer.org$apache</em

浏览 17提问于2020-12-18得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何解决spark读取hive orc文件遇到错误

在java中通过Spark存储orc格式