腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
Apache不
使用
来自
Hive
分区
外部
表
的
分区
信息
、
、
我有一个简单
的
Hive
外部
表
,它是在S3之上创建
的
(文件是CSV格式
的
)。当我运行
hive
查询时,它会显示所有记录和
分区
。但是,当我在
Spark
中
使用
相同
的
表
时(
Spark
在
分区
列上有一个where条件),它不会显示应用了
分区
筛选器。然而,对于
Hive
托管
表
,
Spark
可以
浏览 0
提问于2019-08-24
得票数 3
1
回答
如何解决此错误"org.apache.
spark
.SparkException:所请求
的
分区
与火花壳
中
的
tablename
表
不
匹配“
、
、
、
当将数据写入已
分区
表
中
时,我会遇到以下错误。org.apache.
spark
.SparkException:请求
的
分区
与tablename
表
不
匹配: 我
使用
case类将我
的
RDD转换为DF,然后尝试将数据写入现有的单元
分区
表
中
。但是我得到了他
的
错误,根据打印
的
日志“请求
的
分区
:”是空白
浏览 2
提问于2019-04-17
得票数 1
3
回答
无法从配置单元查询`saveAsTable`之后
的
Spark
DF -
Spark
SQL特定格式,与配置单元
不
兼容
、
、
、
、
我正在尝试将数据帧保存为
外部
表
,该
表
将同时
使用
spark
和可能
的
hive
进行查询,但不知何故,我无法
使用
hive
查询或查看任何数据。它在
spark
中
工作。以下是如何重现该问题
的
方法:<em
浏览 3
提问于2019-08-02
得票数 0
2
回答
当指定
分区
时,
Spark
与
Hive
不
兼容。
、
、
、
一种边缘情况,当在带
分区
的
Spark
中保存拼花
表
时,final StructType schema = DataTypes.createStructType(Arrays.asList
Spark
特定格式
的
Hive
转移,这与
Hive
不
兼容
hive
> describe tblclick8partitioned;col
浏览 2
提问于2016-08-31
得票数 14
3
回答
单元
分区
表
读取所有
分区
,尽管有火花筛选器
、
、
、
我
使用
spark
和scala来读取一个特定
的
Hive
分区
。
分区
是year、month、day、a和b。
spark
正在尝试读取一个不同
的
分区
,而我在那里没有权限。不应该是这样,因为我创建了一个过滤器,这个过滤器就是我
的
分区
。编辑:更多
信息
有些文件是用
Hive
创建
的
,另一些文件是从一台服务器复制
的
,并以不同
的
权限
浏览 2
提问于2019-05-22
得票数 14
回答已采纳
2
回答
如何
使用
HANA SDA虚拟
表
访问蜂窝酸
表
?
、
、
、
、
我们目前正在
使用
HANA 1、sps 12、和火花控制器来创建虚拟
表
并访问HANA
中
的
单元数据。问题是,我们有一些SC2
表
,我们想要存档在HANA,我们需要完整
的
CRUD操作。我们已经将一些
Hive
表
转换为ACID (事务性=真)。现在我们无法获取记录,它返回0条记录。我们尝试
使用
DSN,它具有对
Hive
acid
表
的
本机支持,但是当我们
使用
钻孔ODBC驱动程序和
浏览 5
提问于2020-05-16
得票数 0
回答已采纳
1
回答
Spark
- Get计数,同时保存到配置单元
表
(ORC)
、
我想问您是否有可能在不降低性能
的
情况下
使用
saveAsTable()获得我插入到配置单元
表
中
的
DataFrame计数?老实说,我想报告日志计数,或者最好是在插入之前和插入之后获得计数,因为这将是Splunk Dashboard
中
真正有用
的
信息
,但我不想添加配置单元查询,这可能会对性能造成很大影响,因为我有100多个转换提前感谢您
的
帮助!
浏览 1
提问于2020-08-05
得票数 0
2
回答
spark
HWC无法写入现有
表
、
、
、
、
在HDP 3.1.0
中
,HWC
hive
-warehouse-connector-assembly-1.0.0.3.1.0.0-78.jar,i不能根据数据库追加(或覆盖)到现有的
表
。我在一个名为DSN
的
数据库上测试,它工作,但在另一个名为CLEAN_CRYPT
的
数据库上它失败了。两个数据库都是加密
的
+ kerberos
浏览 2
提问于2020-01-28
得票数 2
2
回答
如何检索
Hive
表
分区
位置?
Show Partitions ->在
Hive
/
Spark
中
,此命令仅提供
分区
,而不提供hdfs/s3上
的
位置
信息
由于我们为
表
中
的
每个
分区
维护不同
的
位置,有没有一种方法可以在不查询Metastore
表
的
情况下
使用
Hive
/
Spark
检索位置
信息
?
浏览 33
提问于2018-08-20
得票数 0
回答已采纳
1
回答
如何对数据进行物理
分区
以避免
Spark
SQL连接
中
的
混洗
我需要连接5个中等大小
的
表
(每个
表
大约80 gb )和大约800 gb
的
大型输入数据。所有数据都驻留在配置单元
表
中
。我
使用
Spark
SQL 1.6.1来实现这一点。所有联接都是排序合并
外部
联接。也看到了大量
的
洗牌发生。 我将
hive
中
的
所有
表
存储到相同数量
的
存储桶
中
,以便所有
表
中</
浏览 3
提问于2016-10-25
得票数 1
1
回答
使用
Spark
在Qubole metastore
中
设置
分区
位置
、
、
、
如何在Qubole metastore
中
为我
的
Hive
表
设置
分区
位置?我知道这是
Spark
,但是如何
使用
MySQL访问它并传递带有修复
的
SQL脚本呢?更新:问题是ALTER TABLE table_name PARTITION (partition_spec) SET LOCATION对于>1000个
分区
运行缓慢。你知道如何直接更新Qubole
的
转移存储吗?我希望将批处理
中
的
浏览 1
提问于2018-04-11
得票数 0
3
回答
Spark
在加载
Hive
表
时创建了多少个
分区
、
、
、
即使是
Hive
表
或HDFS文件,当
Spark
读取数据并创建数据帧时,我认为RDD/dataframe
中
的
分区
数量将等于HDFS
中
的
partfile数量。但是,当我
使用
配置单元
外部
表
进行测试时,我可以看到这个数量与数据帧中
分区
的
部分文件数量.The数量119不同。该
表
是一个
Hive
分区
表</em
浏览 69
提问于2020-04-02
得票数 3
1
回答
查询整个配置单元
外部
表
中
未
分区
的
列
、
、
、
、
我有
hive
外部
表
(以拼图格式存储
的
s3文件),用
spark
创建,大小约为30 GB,具有数百个
分区
。但是,我需要查询非
分区
列(比如SUPPLIER_ID)上
的
数据,以查看完整
的
事务历史记录,而不是特定于某个期间或日期(
分区
列)。在不确定
Hive
表
上
的
哪个
分区
数据属于哪个
分区
的
情况下,如何确保这种查询模式?
浏览 3
提问于2021-06-09
得票数 0
1
回答
Spark
HiveContext -从
外部
分区
配置单元
表
分隔符读取问题
、
、
我有一个
外部
分区
Hive
表
,其下划线文件行格式
的
分隔字段以'|‘结尾,通过
Hive
直接读取数据是可以
的
,但当
使用
Spark
的
Dataframe API时,分隔符'|’不被考虑。创建
外部
分区
表
:
hive
> create external table external_delimited_table(value1 stri
浏览 6
提问于2016-08-20
得票数 2
1
回答
如何
使用
HDFS目录
分区
、
、
、
为了减少处理时间,我按日期对数据进行了
分区
,以便只
使用
必需
的
日期数据(而不是完整
的
表
).So,在HDFS
中
,我
的
表
存储如下现在我想选择min(date) from src_tbl,它将是2016-01-01,从trg_tbl
中
我想
使用
>= 2016-01(src_tbl min(date)) directories which wi
浏览 3
提问于2016-06-18
得票数 1
2
回答
Spark
SQL saveAsTable返回空结果
、
、
、
、
我
使用
以下代码在
Spark
SQL
中
创建/插入数据到
Hive
表
中
: .builder() .master("local输入文件是本地文件系统上
的
csv。 它在./
spark
-warehouse/tablename/下创建地块文件,并
使用
正确
的
create tab
浏览 3
提问于2017-02-27
得票数 3
4
回答
从
Hive
查询时,
分区
表
中
的
数据不会显示。
、
、
、
我不
使用
Spark
进行
分区
!我在保存个人
的
拼花文件!我在
Hive
中有一个
表
(我
使用
Databricks),它包含两个
分区
。我手动在这个
表
中
添加了两个
Spark
分区
: df =
spark
.read.csv(file_path.format(dat
浏览 0
提问于2018-04-26
得票数 1
回答已采纳
1
回答
无法查看配置单元
分区
表
中
的
数据
、
、
、
我有一个
外部
表
,它有一个名为rundate
的
分区
列。我可以
使用
以下命令将数据加载到
表
中
然后,我
使用
以下命令创建
分区
spark
.sql("ALTER TABLE table ADD IF NOT EXISTS PARTITION(
浏览 10
提问于2017-12-20
得票数 0
回答已采纳
1
回答
指定
的
分区
列与table.Please
的
分区
列
不
匹配,
使用
()作为
分区
列
、
、
、
、
在这里,我试图将数据帧持久化到一个
分区
的
蜂窝
表
中
,并得到这个愚蠢
的
异常。我已经看过很多次了,但是找不到错误。org.apache.
spark
.sql.AnalysisException:指定
的
分区
列(时间戳值)与
表
的
分区
列
不
匹配。请
使用
()作为
分区
列。下面是用来创建
外部
表
的
脚本, CREATE
浏览 2
提问于2017-01-12
得票数 1
1
回答
在Tez
中
运行"count(*)“时行为上
的
差异
、
、
、
我在Hadoop分布式文件系统路径和相关
的
hive
表
上有一个文件。这张桌子两边有30个隔板。我从HDFS
中
删除了5个
分区
,然后在
hive
表
上执行"msck repair table <db.tablename>;"。它完成了精细但输出 我尝试运行select count(*) <db.tablename>; (在tez上)--它失败了,出
浏览 1
提问于2019-08-27
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券