腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
跳过
spark
中
配置
单元
表
中
丢失
的
文件
以
避免
FileNotFoundException
、
我正在使用
spark
.sql()读取
表
,然后尝试打印计数。但其中一些
文件
丢失
或直接从HDFS
中
删除。/data我想忽略
丢失
的
文件
并防止我
的
Spark
作业失败。我已经在互联网上搜索并尝试在创建
spark
会话时设置以下
配置
参
浏览 38
提问于2019-07-30
得票数 2
回答已采纳
2
回答
Spark
saveAsTable抛出NoSuchTableException
、
、
、
我正在使用pyspark
的
(
Spark
2.3.2) saveAsTable,如下所示: .sortBy("id") \ .option("path", "test_table.parquet") \在
表</e
浏览 1
提问于2019-10-10
得票数 0
1
回答
从hive
表
创建数据帧后,如果
表
中
的
数据被更改,数据帧将包含新数据还是旧数据?
、
、
当对数据执行操作时,数据被加载到dataframe
中
。但是在执行任何操作之前以及从
配置
子表创建它之后,如果
表
中
的
数据被修改,这些更改是否会反映在数据帧
中
?
浏览 6
提问于2018-02-25
得票数 0
1
回答
对于同一外部
表
,Count(*)在
spark
.sql()和
配置
单元
中
给出不同
的
值
、
、
我正在使用hive和
spark
开发一个AWS集群。前一天,当我在hive
中
的
外部
表
上运行一些ETL pyspark脚本时,我遇到了一个奇怪
的
情况。 我们有一个控制表,它有一个提取日期列。我们正在根据提取日期过滤来自临时
表
( hive
中
的
托管
表
,但位置是s3存储桶)
的
数据,并将其加载到目标
表
,该目标
表
是包含位于s3存储桶
中
的
数据
的
浏览 20
提问于2019-04-28
得票数 0
2
回答
在
Spark
中
,CREATE table命令是否创建外部
表
?
、
、
、
基于GitHub ()
中
的
以下线程,我理解CREATE TABLE + Options (如JDBC),将创建一个
配置
单元
外部
表
?这些类型
的
表
不会实现自身,因此当通过SQL删除该
表
或从Databricks tables UI
中
删除该
表
时,不会
丢失
数据。
浏览 2
提问于2016-04-29
得票数 2
2
回答
如何刷新
表
并并发进行?
、
、
我使用
的
是星火流2.1。我想定期刷新一些缓存
的
表
(由
spark
提供
的
DataSource加载,比如parquet、MySQL或用户定义
的
数据源)。
spark
.read.format("").load().createTempView("my_table")
spark
.sql("cache table my_table
spark
浏览 5
提问于2017-08-22
得票数 18
2
回答
我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“
、
、
、
、
我通过在我
的
数据帧上调用.saveAsTable创建了一个
Spark
SQL
表
。该命令完全成功。但是,现在当我查询
表
时,拼图
文件
似乎已损坏。java.io.IOException: hdfs://ip:8020/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile" 下面是我在
spark
-shell
中
遵循
浏览 3
提问于2016-01-20
得票数 1
1
回答
如何从Apache
Spark
on Analytics Engine读取和写入
配置
单元
表
、
、
我想在Watson Studio
中
的
Jupyter笔记本上使用
Spark
on analytics engine,以便能够读取和写入Hive
表
,但我不清楚如何通过读取
Spark
来做到这一点。不清楚
的
原因是IBM Analytics Engine预
配置
了
Spark
,并且不提供root访问权限。我在网上找到了一些generic hadoop
的
帖子,描述了如何使用元存储位置创建hive.xml,但不清楚如何将其转换到IBM Analyti
浏览 27
提问于2018-06-02
得票数 0
回答已采纳
1
回答
将dynamodb
表
复制到
配置
单元
的
pyspark代码问题:不允许操作
、
、
、
我正在尝试使用pyspark代码从aws emr上
的
Dynamodb创建一个外部
配置
单元
表
。当我在hive提示符上执行该查询时,它工作得很好,但当我将它作为pyspark作业执行时,它就失败了。代码如下:from pyspark.sql import SparkSession
spar
浏览 2
提问于2019-05-10
得票数 2
2
回答
如何将temptable保存到Hive metastore (并在Hive中进行分析)?
、
、
、
、
我使用
的
是
Spark
1.3.1。在
配置
单元
中
,如果我运行show tables,DataFrame在
配置
单元
数据库
中
不会
以
表
的
形式出现。我已经将hive-site.xml复制到$
SPARK
_HOME/conf,但它没有帮助(数据帧也不会出现在
配置
浏览 0
提问于2015-11-18
得票数 0
3
回答
与BigQuery兼容
的
Spark
AVRO
、
、
、
我正在尝试在Hive
中
创建一个外部
表
,并在BigQuery
中
创建另一个
表
,使用与
Spark
编写
的
Avro格式存储在Google Storage
中
的
相同数据。我使用
的
是带有
Spark
2.2.0、
Spark
-avro 4.0.0和Hive 2.1.1
的
Dataproc集群 Avro版本/包之间有相同
的
差异,但如果我使用Hive创建
表
,然后
浏览 30
提问于2017-12-18
得票数 1
3
回答
应如何
配置
spark
sql
以
访问
配置
单元
元存储?
、
、
、
我正在尝试使用
Spark
SQL从Hive元存储
中
读取一个
表
,但
Spark
给出了一个关于
表
未找到
的
错误。我担心
Spark
SQL会创建一个全新
的
空转储。我通过以下命令提交
spark
任务:
spark
-submit --class etl.EIServerSpark --driver-class-path '/opt/cloudera/parcels/CDHHMSHan
浏览 6
提问于2015-07-01
得票数 4
1
回答
如何对数据进行物理分区以
避免
Spark
SQL连接
中
的
混洗
我需要连接5个中等大小
的
表
(每个
表
大约80 gb )和大约800 gb
的
大型输入数据。所有数据都驻留在
配置
单元
表
中
。我使用
Spark
SQL 1.6.1来实现这一点。Join需要40分钟
的
时间才能完成--num-executors 20 --driver-memory 40g --executor-memory 65g --executor-cores 6。也看到了大量
的
洗牌发生。 我将hive<e
浏览 3
提问于2016-10-25
得票数 1
3
回答
无法从
配置
单元
查询`saveAsTable`之后
的
Spark
DF -
Spark
SQL特定格式,与
配置
单元
不兼容
、
、
、
、
我正在尝试将数据帧保存为外部
表
,该
表
将同时使用
spark
和可能
的
hive进行查询,但不知何故,我无法使用hive查询或查看任何数据。它在
spark
中
工作。以下是如何重现该问题
的
方法:hivesc
浏览 3
提问于2019-08-02
得票数 0
1
回答
Delta Lake
表
元数据
Delta Lake在哪里存储
表
元数据信息。我在我
的
独立机器上使用
的
是
spark
2.6(不是Databricks)。我
的
假设是,如果我重启
spark
,在delta
中
创建
的
表
将被删除(尝试使用Jupyter notebook)。但事实并非如此。
浏览 31
提问于2020-07-21
得票数 1
回答已采纳
1
回答
Azure数据库外部化metastore - MSFT脚本未运行
、
、
我正在尝试在AzureSQL上设置带有外部蜂窝转移存储
的
azure数据库。在进行设置时,我创建了Azure SQL。现在我必须运行一个MSFT给定
的
sql ,它有
表
和索引创建sql。当我运行它时,它能够创建新
的
表
,但创建索引失败。我拥有对数据库
的
完全访问权限。可能是缺少了一些奖励。还有为什么MSFT或Databrick有如此漫长
的
过程?或者是否有更好
的
方法来外部化metedata.Please帮助。
浏览 0
提问于2021-08-09
得票数 0
3
回答
Spark
在加载Hive
表
时创建了多少个分区
、
、
、
即使是Hive
表
或HDFS
文件
,当
Spark
读取数据并创建数据帧时,我认为RDD/dataframe
中
的
分区数量将等于HDFS
中
的
partfile数量。但是,当我使用
配置
单元
外部
表
进行测试时,我可以看到这个数量与数据帧中分区
的
部分
文件
数量.The数量119不同。该
表
是一个Hive分区
表
,其中包含150个部分
文件
,最小<
浏览 69
提问于2020-04-02
得票数 3
3
回答
Spark
sql在HDP
的
配置
单元
中
找不到
表
、
、
我使用HDP3.1,我添加了
Spark
2,蜂窝和其他需要
的
服务。我关闭了蜂巢
中
的
ACID功能。
spark
作业在hive
中
找不到
表
。但是
表
存在于Hive
中
。异常如下: org.apache.
spark
.sql.AnalysisException:
表
或视图未找到在
Spark
的
conf
文件
夹中有hive-site.xml。它由HDP自动创建。但它与<e
浏览 0
提问于2019-04-20
得票数 0
1
回答
无法通过Unix Shell终端
中
的
Spark
查看在
配置
单元
中
创建
的
表
、
、
、
通过shell在hive
中
创建
的
表
和通过
Spark
(Eclipse上
的
Scala)创建
的
表
都是一样
的
吗?如何解决这个问题?
浏览 0
提问于2018-03-22
得票数 0
1
回答
将
配置
单元
表
卸载到。使用
Spark
或pyspark或python
的
dat
文件
、
、
、
我目前正在使用hql将数据从
配置
单元
表
卸载到文本
文件
中
。因为它花费了太多
的
时间。我想去
spark
或pyspark.I。我是
spark
/ please
的
新手。你能帮我解决这个问题吗?
浏览 11
提问于2019-10-04
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming如何读Kafka数据 Hbase如何设计表
朴朴基于AWS EMR的数据沙盒平台演变
Spark实战(5)_Spark Core核心编程
Spark SQL,DataFrames 以及 Datasets 编程指南
GitHub标星2400,Netflix开源笔记本工具Polynote
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券