腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在java中通过
Spark
存储
orc
格式
hadoop
、
apache-spark
、
apache-spark-sql
、
orc
我正在
使用
spark
1.3.1,我想以
ORC
格式
以蜂巢形式
存储
数据。 java.lang.RuntimeException: Failedto lo
浏览 5
提问于2015-08-18
得票数 0
回答已采纳
1
回答
用Snappy压缩用
ORC
格式
编写火花数据
amazon-s3
、
apache-spark
、
dataframe
、
orc
我成功地读取了一个
存储
在S3中的文本文件,并
使用
Spark
以
ORC
格式
将它写回S3。- inputDf.write().
orc
(outputPath); 我不能做的是转换为
ORC
格式
与snappy压缩。我已经尝试给出选项,而写作为设置编解码器为snappy,但火花仍然是正常的兽人写。如何
使用
Spark
实现对S3的快速压缩,以
ORC
格式
编写?
浏览 6
提问于2016-04-26
得票数 4
回答已采纳
2
回答
Apache不
使用
来自Hive分区外部表的分区信息
apache-spark
、
hive
、
apache-spark-sql
我有一个简单的Hive外部表,它是在S3之上创建的(文件是CSV
格式
的)。当我运行hive查询时,它会显示所有记录和分区。但是,当我在
Spark
中
使用
相同的表时(
Spark
在分区列上有一个where条件),它不会显示应用了分区筛选器。然而,对于Hive托管表,
Spark
可以
使用
分区信息并应用分区筛选器。是否有任何标志或设置可以帮助我
使用
星火中的Hive外部表的分区?谢谢。 更新: 由于某些原因,只有火花计划没有显示分区筛选器。
浏览 0
提问于2019-08-24
得票数 3
1
回答
我
使用
的是
spark
1.4,并试图保存为orcfile和压缩快照,但它保存为zlib
apache-spark
、
orc
下面是我的代码:"xyz") 但是文件被保存为
浏览 0
提问于2015-11-02
得票数 0
1
回答
java.lang.ClassCastException:不能将org.apache.hadoop.hive.ql.io.
orc
.OrcStruct转换为org.apache.hadoop.io.Text
json
、
hadoop
、
hive
、
hive-serde
我正在开发一个能获取json数据并将其
存储
到蜂窝表中的星星之火应用程序。例如,在我在线搜索之后,我尝试这样做::)ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'Error: java.io.IOException:
浏览 10
提问于2017-07-15
得票数 0
2
回答
如何
使用
Scala更新
ORC
蜂巢表
scala
、
apache-spark
、
apache-spark-sql
、
hiveql
、
hivecontext
我想更新一个以
orc
格式
的hive表,我可以从我的ambari hive视图中进行更新,但是无法从sacla运行相同的update语句(星火壳)。试着用Insert进入case语句,但是我们不能从
spark
中更新单元
ORC
表吗?如果是的话,程序是什么?进口以下import org.apache.
spark
.SparkConfimportorg.ap
浏览 0
提问于2015-12-30
得票数 5
回答已采纳
1
回答
用火花将CSV转换为
ORC
apache-spark
、
apache-spark-sql
、
orc
我见过Hortonworks通过数据源支持
Spark
1.2中的
ORC
的。 它涵盖了1.2版本,它解决了来自对象的
ORC
文件的问题或创建,而不是从csv到
ORC
的转换。请有人提供一个简单的例子,说明如何从星火1.6+加载普通的csv文件,并将其保存为
ORC
,然后将其加载为星火中的数据帧。
浏览 10
提问于2016-04-05
得票数 3
回答已采纳
2
回答
将
spark
rdd保存为
ORC
格式
scala
、
apache-spark
、
parquet
、
orc
我正在尝试将我的RDD保存为
orc
格式
。._它编译得很好,但是不能工作。ERROR ApplicationMaster: User class threw exception: java.lang.AssertionError: assertion failed: The
ORC
java.lang.AssertionError: assertion failed: The
ORC
dat
浏览 8
提问于2015-11-27
得票数 2
1
回答
火花中的BigQueryOperator -无法将数组结构写入bigquery表
scala
、
apache-spark
、
google-bigquery
在
Spark
中,我有一个定义为 .add("id", StringType)df.createOrReplaceTempView("myData"){ "recordName&
浏览 0
提问于2021-10-06
得票数 1
1
回答
如何在
spark
应用中验证
orc
矢量化是否有效?
apache-spark
、
vectorization
、
orc
我已经在我的
spark
streaming应用程序中启用了以下列出的配置,但我无法推断设置这些参数后的性能优势,如果你们中的任何一个知道任何方法来验证矢量化是否按预期/正确启用!注意:我正在
使用
Spark
2.3,并将我的应用程序中的所有数据转换为原生
orc
格式
1.4版本。sparkSqlCtx.setConf("
spark
.sql.
orc
.filterPushdown", "true") sparkSqlCtx.se
浏览 3
提问于2018-05-23
得票数 1
2
回答
星星之火(v2.3.2) dataframe正在以字符串类型读取
ORC
文件中的所有列。这是正常的行为吗?
apache-spark
、
orc
我有一堆CSV文件正在
使用
ETL工具Informatica以
ORC
格式
加载到HDFS。加载到HDFS之后,我想提取
ORC
文件的元数据(列名、数据类型)。但是,当我将
ORC
文件加载到
Spark
中时,所有的列都被评估为string类型。Science|18-03-2012 09:48:09|30487|Math|10-04-2012 17:00:46|20df =
浏览 1
提问于2019-10-16
得票数 2
1
回答
使用
Scala数据from创建带有分区的单元表
scala
、
apache-spark
、
hive
、
apache-spark-sql
、
hiveql
hive表应该具有按日期分区的S3位置中的
ORC
格式
的底层文件。我用
ORC
格式
将scala数据写入S3。df.write.format("
orc
").partitionBy("date").save("S3Location)STORED AS
ORC
TBLPROPERTIES("<
浏览 3
提问于2020-10-30
得票数 0
2
回答
Spark
删除Apache
Orc
文件
apache-spark
、
orc
我
使用
spark
shell将
spark
数据帧
存储
为
orc
-file,如下所示:我发现数据现在位于windows\system32\applicationsPartitioned中 如何正确删除
orc
-file?我可以直接关闭
spark</e
浏览 18
提问于2017-07-12
得票数 0
回答已采纳
1
回答
将数据集从文本文件
格式
转换为"presto-
orc
“
格式
以获得更好的prestoDB性能
presto
如何
使用
这种"presto-
orc
“文件
格式
?我通常
使用
hive将数据写入
ORC
/RCFile/Parquet。
浏览 0
提问于2015-11-16
得票数 0
1
回答
无法在星火中配置
ORC
属性
java
、
hadoop
、
apache-spark
、
hive
、
cloudera
我正在
使用
Spark
1.6(Cloudera5.8.2)并尝试下面的方法来配置
ORC
属性。但它不会影响输出。 hiveContext.createDataFrame(rowData, schema);
浏览 0
提问于2017-01-20
得票数 3
回答已采纳
2
回答
配置单元“alter table <table name> concatenate”是如何工作的?
hadoop
、
hive
、
hiveql
、
orc
我有n(large)数量的小尺寸的
orc
文件,我想合并成k(small)数量的大的
orc
文件。任何指针都会很棒。
浏览 36
提问于2017-01-24
得票数 3
2
回答
如何
使用
spark
/scala +代码+配置通过远程单元
存储
( s3
orc
)加载闪烁s3中的文件
scala
、
apache-spark
、
amazon-s3
、
hive
、
thrift
intellij(星火)--> Hive (远程)--
存储
在S3(
orc
格式
)上,无法通过
spark
/scala读取远程Hive表。import org.apache.
spark
.SparkContextimport org.apache.
s
浏览 0
提问于2018-04-13
得票数 2
1
回答
为什么在
spark
中
spark
.sql.
orc
.filterPushdown默认是false?
apache-spark
、
apache-spark-sql
、
orc
为什么
spark
中的
spark
.sql.
orc
.filterPushdown默认值是false?将
spark
的值设置为true是否会导致一些性能开销,或者在
spark
.sql.
orc
.filterPushdown的
orc
读取功能中存在一些限制?
浏览 0
提问于2019-03-14
得票数 0
5
回答
如何读取Python Pandas中本地
存储
的
ORC
文件?
python
、
pandas
、
pyspark
、
data-science
、
orc
我是否可以将
ORC
文件视为类似于包含数据的列标题和行标签的CSV文件?如果是这样,我能以某种方式将其读入一个简单的pandas数据帧吗?我对Hadoop或
Spark
这样的工具不是很熟悉,但仅仅为了在Python中查看本地
ORC
文件的内容,有必要理解它们吗?文件名为someFile.snappy.
orc
我可以在网上看到
spark
.read.
orc
('someFile.snappy.
orc
')可以工作,但即使在import pyspark之后,它也会抛
浏览 2
提问于2018-10-19
得票数 8
2
回答
星星之火DataFrame saveAsTable:
apache-spark
、
apache-spark-sql
我想知道如何定制DataFrameWriter#saveAsTable
使用
的表设置。 LOCATION <hdfs_path
浏览 0
提问于2019-02-12
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hive底层数据存储格式详解
Hive 3的ACID表
ps切片工具的使用,存储为web格式
大数据架构变革进行时:为什么腾讯看好开源Apache Iceberg?
Uber是如何低成本构建开源大数据平台的?
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券