腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
无法
通过
Spark
1.6
从
拼接
蜂窝
表
中
读取
数据
、
、
、
我正在尝试
从
以拼图格式存储的配置单元
表
中
读取
数据
。我使用的是MapR发行版。
读取
数据
后,当我尝试执行任何操作时,例如df.show(3),它抛出java.lang.ArrayIndexOutOfBoundsException: 7。如果
表
存储被更改为ORC,那么它就可以工作。 此外,我还尝试
从
共享集群
中
的
表
中
读取
数据
。因此,我不能更改源
表
浏览 16
提问于2019-02-15
得票数 0
1
回答
Spark
dataset获取与整型列标题相同的
数据
、
、
、
我正在尝试
通过
java
中
的
spark
读取
hive
表
,
通过
创建
spark
数据
集。对于所有具有字符串标题的列,都可以正确
读取
数据
,但是对于整数标题,
spark
会获取与标题相同的列
数据
。该
表
是在拼图文件上创建的外部
表
。我的
蜂窝
表
: CREATE EXTERNAL TABLE `myTable`(`tester` in
浏览 19
提问于2019-11-15
得票数 0
1
回答
单元
数据
库文件没有分隔符
、
我正在尝试
读取
一个由HIVE
表
创建的HDFS文件。该文件为文本格式。当我打开文件时,我惊讶地发现这些行没有任何字段分隔符。 蜂巢可以
读取
文件..。但非常缓慢。因此,我想使用火花作业阅读内容。其中一些字段是URL,因此很难将其
读取
为固定宽度的文件类型。
浏览 1
提问于2016-02-26
得票数 1
回答已采纳
4
回答
如何在星火中创建空dataFrame
、
、
、
、
我有一套基于Avro的
蜂窝
表
,我需要从它们
中
读取
数据
。由于
Spark
使用hive
从
HDFS
读取
数据
,因此它比直接
读取
HDFS慢得多。因此,我使用
数据
砖
Spark
从
底层HDFS dir
读取
Avro文件。 一切正常,除非桌子是空的。我已经成功地使用以下命令
从
hive
表
的.avsc文件
中
获得了模式,
浏览 5
提问于2018-05-30
得票数 4
1
回答
使用Azure
数据
工厂生成的拼图-
无法
在配置单元
中
创建
表
、
、
、
从
Azure Data Factory生成拼图文件(复制活动-
从
Azure SQL复制到
数据
湖
中
的拼图)。当我尝试
从
蜂窝
中
读取
相同的拼图时,它给出了错误,因为org.apache.parquet.io.ParquetDecodingException:
无法
读取
块
中
0的值。如果你使用
Spark
生成拼图,那么你可以设置
Spark
.sql.parquet.writeLe
浏览 0
提问于2021-07-02
得票数 0
1
回答
在物理计划
中
执行交换和排序步骤的配置单元存储桶
表
、
、
、
我有两个
表
,它们都聚集在相同的列上,但是在连接聚集列上的两个
表
时,执行计划同时显示了交换和排序步骤。我希望在我的计划
中
避免排序和交换步骤,并且根据文档,存储桶的
表
应该避免排序和交换步骤。我甚至尝试了下面的hive属性:
spark
.sql('set
spark
.sql.orc.filter
浏览 1
提问于2019-06-12
得票数 1
3
回答
如何在hive或impala中计算
表
统计
数据
,以加快
Spark
中
的查询?
、
、
、
为了提高性能(例如对于联接),建议首先计算
表
静力学。(
从
蜂窝
表
中
读取
)是否也
从
预先计算的统计
数据
中
受益?他们都在保存蜂巢亚稳态的统计
数据
吗?我在Cloudera 5.5.4上使用
spark
1.6.1 注意:在参数的
Spark
1.6.1(
spark
.sql.autoBroadcastJoinThreshold )文档
中
,我找到了一个提示:请注意
浏览 6
提问于2016-09-22
得票数 11
2
回答
星星之火:
无法
读取
蜂窝
表
中
的
数据
、
、
、
、
>我的班级正在
读取
蜂窝
表
中
的
数据
:import org.apache.
spark
.SparkConf从一个表格
读取
数据
在
蜂窝
元
数据
,但面临一个非常奇怪的问题。我有以下两个问题: 问题1.如果我使用&l
浏览 5
提问于2017-02-20
得票数 1
回答已采纳
1
回答
在不更改列名的情况下创建PySpark
数据
框
、
、
、
我使用下面的CTAS命令使用SparkSQL创建
表
。FROM TBL1 在那之后,我正在使用下面的PySpark代码
读取
新创建的位置(TBL2)下面的文件。但是,下面的data frame仅使用lowercase
中
的所有列名创建。而预期的结果是在camel case
中
,就像我在上面对CTAS所做的那样。df =
spark
.read.format('ORC') \ .option(&
浏览 12
提问于2019-12-23
得票数 1
回答已采纳
1
回答
在Parquet分区目录结构
中
读取
不同的Schema
、
、
我在hdfs上使用
spark
编写了以下分区
拼接
数据
: |---Month |----Day|---dailydata.parquet 现在,当我
从
year path
读取
df时,
spark
读取
dailydata.parquet。如何
从
所有分区
中
读取
每月
数据
。我尝试使用设置选项mergeSchema = true,但出
浏览 4
提问于2017-03-30
得票数 0
3
回答
Spark
是否支持对拼图文件进行分区修剪
、
、
、
我正在处理一个大型
数据
集,该
数据
集由两列组成-- plant_name和tag_id。第二个tag_id - tag_id有200000个唯一值,我主要
通过
特定的partition值访问
数据
。如果我使用以下
Spark
命令:sqlContext.setConf在蜂巢和Presto
中
,这需要几
浏览 2
提问于2016-05-12
得票数 19
1
回答
读取
配置单元托管
表
时,
Spark
sql返回空dataframe
、
、
、
使用HDP 3.1
中
的
Spark
2.4和Hive 3.1.0,我试图使用
spark
sql
从
hive
读取
托管
表
,但它返回一个空的dataframe,而它可以轻松地
读取
外部
表
。如何
通过
spark
sql
从
hive
读取
托管
表
? 注意:当
从
hive客户端
读取
时,hive maanged
表
不是空的。 1-我尝试<em
浏览 26
提问于2019-09-25
得票数 1
1
回答
在星火scala中将dataframe转换为单元
表
、
、
、
、
我正试图将一个dataframe转换为星火Scala
中
的hive
表
。我
从
XML文件
中
读取
数据
。它使用SQL上下文来做到这一点。我想把这个
数据
转换成一个
蜂窝
表
。我得到了这个错误: “警告HiveContext$$anon$1:
无法
以与Hive兼容的方式持久化database_1.test_table。以
Spark
特定格式将其保存到Hive转移
中
。”object
spark<
浏览 4
提问于2016-05-23
得票数 3
回答已采纳
1
回答
Apache
Spark
Structured Streaming (DataStreamWriter)写入配置单元
表
、
、
我希望使用火花结构流
从
卡夫卡
读取
数据
,并处理它,并写入
蜂窝
表
。val
spark
= SparkSession .appName("Kafka Test") .readStream .opti
浏览 5
提问于2018-02-06
得票数 1
3
回答
Apache
Spark
在Java
中
读取
和写入Apache Phoenix的方法
、
、
、
、
谁能为我提供一些例子来
读取
一个DataFrame和
数据
集(在
Spark
2.0)
从
菲尼克斯(完整的
表
,也使用一个查询)和写一个DataFrame和
数据
集(在
Spark
2.0)到菲尼克斯,在Apache
Spark
中
的java。在java
中
没有任何有文档记录的这些例子。如果可能的话,还提供了多种方式,比如可以使用PhoenixConfigurationUtil设置输入类和输入查询,然后
从
sparkCon
浏览 0
提问于2016-10-30
得票数 3
2
回答
配置单元orc
表
的sqoop导出
、
、
我有一个由pyspark dataframe_writer填充的orc格式的
蜂窝
表
。我需要将这个
表
导出到oracle.我在导出
表
时遇到问题,因为sqoop
无法
解析orc文件格式。对于导出hive orc
表
,是否需要使用sqoop命令指定任何特殊的注意事项或参数。
浏览 0
提问于2017-02-22
得票数 0
1
回答
使用检查点
从
胞
表
读取
和更新同一个
表
、
、
我正在使用
spark
版本2.3,并试图将
spark
中
的蜂巢
表
读取
为:from pyspark.sql.functions importas F现在面临一个问题,当我试图将这个dataframe写成
蜂窝
表
时 newdf.write.modedataframe
读取<
浏览 0
提问于2018-12-06
得票数 2
回答已采纳
3
回答
如何在
spark
中
读取
orc事务单元
表
?
、
、
、
如何在
spark
中
读取
orc事务单元
表
?('transactional'='true');hive> insert into default.hello values(10,'abc'
浏览 0
提问于2018-05-09
得票数 4
1
回答
Apache安装和db_metastore
我是
Spark
的初学者。我安装了java和
spark
-1.6.1-bin-hadoop2.6.tgz(我还没有安装Hadoop),并且没有更改conf目录
中
的任何配置,就运行了
spark
-shell。在安装
spark
的目录
中
,我看到创建了另一个metastore_db,其中包含临时文件夹。为什么要创建这个metastore_db,在哪里配置的?我还看到在运行
spark
-shell之后创建了sqlContext,这个sqlContext代表什么?
浏览 11
提问于2016-08-25
得票数 1
回答已采纳
1
回答
对于ETL来说,使用ORC性能的Hive真的比
Spark
更好吗?
、
、
、
、
蜂巢
中
的连接比火花更好/更快 示例链接: 30查找
浏览 0
提问于2017-08-09
得票数 3
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券