spark使用orc格式存储_无法使用Spark合并小的ORC文件_将以orc格式存储的配置单元表从本地HDFS传输到Google云存储 - 腾讯云开发者社区

hadoop、apache-spark、apache-spark-sql、orc

我正在使用spark 1.3.1，我想以ORC格式以蜂巢形式存储数据。 java.lang.RuntimeException: Failedto lo

浏览 5提问于2015-08-18得票数 0

回答已采纳

1回答

用Snappy压缩用ORC格式编写火花数据

amazon-s3、apache-spark、dataframe、orc

我成功地读取了一个存储在S3中的文本文件，并使用Spark以ORC格式将它写回S3。- inputDf.write().orc(outputPath); 我不能做的是转换为ORC格式与snappy压缩。我已经尝试给出选项，而写作为设置编解码器为snappy，但火花仍然是正常的兽人写。如何使用Spark实现对S3的快速压缩，以ORC格式编写？

浏览 6提问于2016-04-26得票数 4

回答已采纳

2回答

我有一个简单的Hive外部表，它是在S3之上创建的(文件是CSV格式的)。当我运行hive查询时，它会显示所有记录和分区。但是，当我在Spark中使用相同的表时( Spark在分区列上有一个where条件)，它不会显示应用了分区筛选器。然而，对于Hive托管表，Spark可以使用分区信息并应用分区筛选器。是否有任何标志或设置可以帮助我使用星火中的Hive外部表的分区？谢谢。更新: 由于某些原因，只有火花计划没有显示分区筛选器。

浏览 0提问于2019-08-24得票数 3

1回答

我使用的是spark 1.4，并试图保存为orcfile和压缩快照，但它保存为zlib

apache-spark、orc

下面是我的代码："xyz") 但是文件被保存为

浏览 0提问于2015-11-02得票数 0

1回答

java.lang.ClassCastException:不能将org.apache.hadoop.hive.ql.io.orc.OrcStruct转换为org.apache.hadoop.io.Text

json、hadoop、hive、hive-serde

我正在开发一个能获取json数据并将其存储到蜂窝表中的星星之火应用程序。例如，在我在线搜索之后，我尝试这样做：：)ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'Error: java.io.IOException:

浏览 10提问于2017-07-15得票数 0

2回答

如何使用Scala更新ORC蜂巢表

scala、apache-spark、apache-spark-sql、hiveql、hivecontext

我想更新一个以orc格式的hive表，我可以从我的ambari hive视图中进行更新，但是无法从sacla运行相同的update语句(星火壳)。试着用Insert进入case语句，但是我们不能从spark中更新单元ORC表吗？如果是的话，程序是什么？进口以下import org.apache.spark.SparkConfimportorg.ap

浏览 0提问于2015-12-30得票数 5

回答已采纳

1回答

用火花将CSV转换为ORC

apache-spark、apache-spark-sql、orc

我见过Hortonworks通过数据源支持Spark1.2中的ORC的。它涵盖了1.2版本，它解决了来自对象的ORC文件的问题或创建，而不是从csv到ORC的转换。请有人提供一个简单的例子，说明如何从星火1.6+加载普通的csv文件，并将其保存为ORC，然后将其加载为星火中的数据帧。

浏览 10提问于2016-04-05得票数 3

回答已采纳

2回答

将spark rdd保存为ORC格式

scala、apache-spark、parquet、orc

我正在尝试将我的RDD保存为orc格式。._它编译得很好，但是不能工作。ERROR ApplicationMaster: User class threw exception: java.lang.AssertionError: assertion failed: The ORCjava.lang.AssertionError: assertion failed: The ORC dat

浏览 8提问于2015-11-27得票数 2

1回答

火花中的BigQueryOperator -无法将数组结构写入bigquery表

scala、apache-spark、google-bigquery

在Spark中，我有一个定义为 .add("id", StringType)df.createOrReplaceTempView("myData"){ "recordName&

浏览 0提问于2021-10-06得票数 1

1回答

如何在spark应用中验证orc矢量化是否有效？

apache-spark、vectorization、orc

我已经在我的spark streaming应用程序中启用了以下列出的配置，但我无法推断设置这些参数后的性能优势，如果你们中的任何一个知道任何方法来验证矢量化是否按预期/正确启用！注意:我正在使用Spark 2.3，并将我的应用程序中的所有数据转换为原生orc格式1.4版本。sparkSqlCtx.setConf("spark.sql.orc.filterPushdown", "true") sparkSqlCtx.se

浏览 3提问于2018-05-23得票数 1

2回答

星星之火(v2.3.2) dataframe正在以字符串类型读取ORC文件中的所有列。这是正常的行为吗？

apache-spark、orc

我有一堆CSV文件正在使用ETL工具Informatica以ORC格式加载到HDFS。加载到HDFS之后，我想提取ORC文件的元数据(列名、数据类型)。但是，当我将ORC文件加载到Spark中时，所有的列都被评估为string类型。Science|18-03-2012 09:48:09|30487|Math|10-04-2012 17:00:46|20df =

浏览 1提问于2019-10-16得票数 2

1回答

使用Scala数据from创建带有分区的单元表

scala、apache-spark、hive、apache-spark-sql、hiveql

hive表应该具有按日期分区的S3位置中的ORC格式的底层文件。我用ORC格式将scala数据写入S3。df.write.format("orc").partitionBy("date").save("S3Location)STORED AS ORCTBLPROPERTIES("<

浏览 3提问于2020-10-30得票数 0

2回答

Spark删除Apache Orc文件

apache-spark、orc

我使用spark shell将spark数据帧存储为orc-file，如下所示：我发现数据现在位于windows\system32\applicationsPartitioned中如何正确删除orc-file？我可以直接关闭spark</e

浏览 18提问于2017-07-12得票数 0

回答已采纳

1回答

将数据集从文本文件格式转换为"presto-orc“格式以获得更好的prestoDB性能

presto

如何使用这种"presto-orc“文件格式？我通常使用hive将数据写入ORC/RCFile/Parquet。

浏览 0提问于2015-11-16得票数 0

1回答

无法在星火中配置ORC属性

java、hadoop、apache-spark、hive、cloudera

我正在使用Spark1.6(Cloudera5.8.2)并尝试下面的方法来配置ORC属性。但它不会影响输出。 hiveContext.createDataFrame(rowData, schema);

浏览 0提问于2017-01-20得票数 3

回答已采纳

2回答

配置单元“alter table <table name> concatenate”是如何工作的？

hadoop、hive、hiveql、orc

我有n(large)数量的小尺寸的orc文件，我想合并成k(small)数量的大的orc文件。任何指针都会很棒。

浏览 36提问于2017-01-24得票数 3

2回答

如何使用spark/scala +代码+配置通过远程单元存储( s3 orc)加载闪烁s3中的文件

scala、apache-spark、amazon-s3、hive、thrift

intellij(星火)--> Hive (远程)--存储在S3(orc格式)上，无法通过spark/scala读取远程Hive表。import org.apache.spark.SparkContextimport org.apache.s

浏览 0提问于2018-04-13得票数 2

1回答

为什么在spark中spark.sql.orc.filterPushdown默认是false？

apache-spark、apache-spark-sql、orc

为什么spark中的spark.sql.orc.filterPushdown默认值是false？将spark的值设置为true是否会导致一些性能开销，或者在spark.sql.orc.filterPushdown的orc读取功能中存在一些限制？

浏览 0提问于2019-03-14得票数 0

5回答

如何读取Python Pandas中本地存储的ORC文件？

python、pandas、pyspark、data-science、orc

我是否可以将ORC文件视为类似于包含数据的列标题和行标签的CSV文件？如果是这样，我能以某种方式将其读入一个简单的pandas数据帧吗？我对Hadoop或Spark这样的工具不是很熟悉，但仅仅为了在Python中查看本地ORC文件的内容，有必要理解它们吗？文件名为someFile.snappy.orc 我可以在网上看到spark.read.orc('someFile.snappy.orc')可以工作，但即使在import pyspark之后，它也会抛

浏览 2提问于2018-10-19得票数 8

2回答

星星之火DataFrame saveAsTable：

apache-spark、apache-spark-sql

我想知道如何定制DataFrameWriter#saveAsTable使用的表设置。 LOCATION <hdfs_path

浏览 0提问于2019-02-12得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在java中通过Spark存储orc格式

用Snappy压缩用ORC格式编写火花数据

Apache不使用来自Hive分区外部表的分区信息

我使用的是spark 1.4，并试图保存为orcfile和压缩快照，但它保存为zlib

java.lang.ClassCastException:不能将org.apache.hadoop.hive.ql.io.orc.OrcStruct转换为org.apache.hadoop.io.Text

如何使用Scala更新ORC蜂巢表

用火花将CSV转换为ORC

将spark rdd保存为ORC格式

火花中的BigQueryOperator -无法将数组结构写入bigquery表

如何在spark应用中验证orc矢量化是否有效？

星星之火(v2.3.2) dataframe正在以字符串类型读取ORC文件中的所有列。这是正常的行为吗？

使用Scala数据from创建带有分区的单元表

Spark删除Apache Orc文件

将数据集从文本文件格式转换为"presto-orc“格式以获得更好的prestoDB性能

无法在星火中配置ORC属性

配置单元“alter table <table name> concatenate”是如何工作的？

如何使用spark/scala +代码+配置通过远程单元存储( s3 orc)加载闪烁s3中的文件

为什么在spark中spark.sql.orc.filterPushdown默认是false？

如何读取Python Pandas中本地存储的ORC文件？

星星之火DataFrame saveAsTable：

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐