跳过spark中配置单元表中丢失的文件以避免FileNotFoundException

我正在使用hive和spark开发一个AWS集群。前一天，当我在hive中的外部表上运行一些ETL pyspark脚本时，我遇到了一个奇怪的情况。我们有一个控制表，它有一个提取日期列。我们正在根据提取日期过滤来自临时表( hive中的托管表，但位置是s3存储桶)的数据，并将其加载到目标表，该目标表是包含位于s3存储桶中的数据的

浏览 20提问于2019-04-28得票数 0

2回答

在Spark中，CREATE table命令是否创建外部表？

、、、

基于GitHub ()中的以下线程，我理解CREATE TABLE + Options (如JDBC)，将创建一个配置单元外部表？这些类型的表不会实现自身，因此当通过SQL删除该表或从Databricks tables UI中删除该表时，不会丢失数据。

浏览 2提问于2016-04-29得票数 2

2回答

如何刷新表并并发进行？

、、

我使用的是星火流2.1。我想定期刷新一些缓存的表(由spark提供的DataSource加载，比如parquet、MySQL或用户定义的数据源)。 spark.read.format("").load().createTempView("my_table")spark.sql("cache table my_tablespark

浏览 5提问于2017-08-22得票数 18

2回答

我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“

、、、、

我通过在我的数据帧上调用.saveAsTable创建了一个Spark SQL表。该命令完全成功。但是，现在当我查询表时，拼图文件似乎已损坏。java.io.IOException: hdfs://ip:8020/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile" 下面是我在spark-shell中遵循

浏览 3提问于2016-01-20得票数 1

1回答

如何从Apache Spark* on Analytics Engine读取和写入配置单元表*

、、

我想在Watson Studio中的Jupyter笔记本上使用Spark on analytics engine，以便能够读取和写入Hive表，但我不清楚如何通过读取Spark 来做到这一点。不清楚的原因是IBM Analytics Engine预配置了Spark，并且不提供root访问权限。我在网上找到了一些generic hadoop的帖子，描述了如何使用元存储位置创建hive.xml，但不清楚如何将其转换到IBM Analyti

浏览 27提问于2018-06-02得票数 0

回答已采纳

1回答

将dynamodb表复制到配置单元的pyspark代码问题:不允许操作

、、、

我正在尝试使用pyspark代码从aws emr上的Dynamodb创建一个外部配置单元表。当我在hive提示符上执行该查询时，它工作得很好，但当我将它作为pyspark作业执行时，它就失败了。代码如下：from pyspark.sql import SparkSessionspar

浏览 2提问于2019-05-10得票数 2

2回答

如何将temptable保存到Hive metastore (并在Hive中进行分析)？

、、、、

我使用的是Spark 1.3.1。在配置单元中，如果我运行show tables，DataFrame在配置单元数据库中不会以表的形式出现。我已经将hive-site.xml复制到$SPARK_HOME/conf，但它没有帮助(数据帧也不会出现在配置

浏览 0提问于2015-11-18得票数 0

3回答

与BigQuery兼容的Spark* AVRO*

、、、

我正在尝试在Hive中创建一个外部表，并在BigQuery中创建另一个表，使用与Spark编写的Avro格式存储在Google Storage中的相同数据。我使用的是带有Spark 2.2.0、Spark-avro 4.0.0和Hive 2.1.1的Dataproc集群 Avro版本/包之间有相同的差异，但如果我使用Hive创建表，然后

浏览 30提问于2017-12-18得票数 1

3回答

应如何配置spark* sql以访问配置单元元存储？*

、、、

我正在尝试使用Spark SQL从Hive元存储中读取一个表，但Spark给出了一个关于表未找到的错误。我担心Spark SQL会创建一个全新的空转储。我通过以下命令提交spark任务： spark-submit --class etl.EIServerSpark --driver-class-path '/opt/cloudera/parcels/CDHHMSHan

浏览 6提问于2015-07-01得票数 4

1回答

如何对数据进行物理分区以避免Spark* SQL连接中的混洗*

我需要连接5个中等大小的表(每个表大约80 gb )和大约800 gb的大型输入数据。所有数据都驻留在配置单元表中。我使用Spark SQL 1.6.1来实现这一点。Join需要40分钟的时间才能完成--num-executors 20 --driver-memory 40g --executor-memory 65g --executor-cores 6。也看到了大量的洗牌发生。我将hive<e

浏览 3提问于2016-10-25得票数 1

3回答

无法从配置单元查询`saveAsTable`之后的Spark* DF - Spark SQL特定格式，与配置单元不兼容*

、、、、

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法：hivesc

浏览 3提问于2019-08-02得票数 0

1回答

Delta Lake表元数据

Delta Lake在哪里存储表元数据信息。我在我的独立机器上使用的是spark 2.6(不是Databricks)。我的假设是，如果我重启spark，在delta中创建的表将被删除(尝试使用Jupyter notebook)。但事实并非如此。

浏览 31提问于2020-07-21得票数 1

回答已采纳

1回答

Azure数据库外部化metastore - MSFT脚本未运行

、、

我正在尝试在AzureSQL上设置带有外部蜂窝转移存储的azure数据库。在进行设置时，我创建了Azure SQL。现在我必须运行一个MSFT给定的sql ，它有表和索引创建sql。当我运行它时，它能够创建新的表，但创建索引失败。我拥有对数据库的完全访问权限。可能是缺少了一些奖励。还有为什么MSFT或Databrick有如此漫长的过程？或者是否有更好的方法来外部化metedata.Please帮助。

浏览 0提问于2021-08-09得票数 0

3回答

Spark在加载Hive表时创建了多少个分区

、、、

即使是Hive表或HDFS文件，当Spark读取数据并创建数据帧时，我认为RDD/dataframe中的分区数量将等于HDFS中的partfile数量。但是，当我使用配置单元外部表进行测试时，我可以看到这个数量与数据帧中分区的部分文件数量.The数量119不同。该表是一个Hive分区表，其中包含150个部分文件，最小<

浏览 69提问于2020-04-02得票数 3

3回答

Spark sql在HDP的配置单元中找不到表

、、

我使用HDP3.1，我添加了Spark2，蜂窝和其他需要的服务。我关闭了蜂巢中的ACID功能。spark作业在hive中找不到表。但是表存在于Hive中。异常如下: org.apache.spark.sql.AnalysisException:表或视图未找到在Spark的conf文件夹中有hive-site.xml。它由HDP自动创建。但它与<e

浏览 0提问于2019-04-20得票数 0

1回答

无法通过Unix Shell终端中的Spark查看在配置单元中创建的表

、、、

通过shell在hive中创建的表和通过Spark (Eclipse上的Scala)创建的表都是一样的吗？如何解决这个问题？

浏览 0提问于2018-03-22得票数 0

1回答

将配置单元表卸载到。使用Spark或pyspark或python的dat文件

、、、

我目前正在使用hql将数据从配置单元表卸载到文本文件中。因为它花费了太多的时间。我想去spark或pyspark.I。我是spark/ please的新手。你能帮我解决这个问题吗?

浏览 11提问于2019-10-04得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云