Spark不使用Hive分区外部表中的分区信息 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

Apache不使用来自Hive分区外部表的分区信息

、、

我有一个简单的Hive外部表，它是在S3之上创建的(文件是CSV格式的)。当我运行hive查询时，它会显示所有记录和分区。但是，当我在Spark中使用相同的表时( Spark在分区列上有一个where条件)，它不会显示应用了分区筛选器。然而，对于Hive托管表，Spark可以

浏览 0提问于2019-08-24得票数 3

1回答

如何解决此错误"org.apache.spark.SparkException:所请求的分区与火花壳中的tablename表不匹配“

、、、

当将数据写入已分区表中时，我会遇到以下错误。org.apache.spark.SparkException:请求的分区与tablename表不匹配：我使用case类将我的RDD转换为DF，然后尝试将数据写入现有的单元分区表中。但是我得到了他的错误，根据打印的日志“请求的分区：”是空白

浏览 2提问于2019-04-17得票数 1

3回答

无法从配置单元查询`saveAsTable`之后的Spark* DF - Spark SQL特定格式，与配置单元不兼容*

、、、、

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法：<em

浏览 3提问于2019-08-02得票数 0

2回答

当指定分区时，Spark与Hive不兼容。

、、、

一种边缘情况，当在带分区的Spark中保存拼花表时，final StructType schema = DataTypes.createStructType(Arrays.asListSpark特定格式的Hive转移，这与Hive不兼容 hive> describe tblclick8partitioned;col

浏览 2提问于2016-08-31得票数 14

3回答

单元分区表读取所有分区，尽管有火花筛选器

、、、

我使用spark和scala来读取一个特定的Hive分区。分区是year、month、day、a和b。spark正在尝试读取一个不同的分区，而我在那里没有权限。不应该是这样，因为我创建了一个过滤器，这个过滤器就是我的分区。编辑:更多信息有些文件是用Hive创建的，另一些文件是从一台服务器复制的，并以不同的权限

浏览 2提问于2019-05-22得票数 14

回答已采纳

2回答

如何使用HANA SDA虚拟表访问蜂窝酸表？

、、、、

我们目前正在使用HANA 1、sps 12、和火花控制器来创建虚拟表并访问HANA中的单元数据。问题是，我们有一些SC2表，我们想要存档在HANA，我们需要完整的CRUD操作。我们已经将一些Hive表转换为ACID (事务性=真)。现在我们无法获取记录，它返回0条记录。我们尝试使用DSN，它具有对Hive acid表的本机支持，但是当我们使用钻孔ODBC驱动程序和

浏览 5提问于2020-05-16得票数 0

回答已采纳

1回答

Spark - Get计数，同时保存到配置单元表(ORC)

、

我想问您是否有可能在不降低性能的情况下使用saveAsTable()获得我插入到配置单元表中的DataFrame计数？老实说，我想报告日志计数，或者最好是在插入之前和插入之后获得计数，因为这将是Splunk Dashboard中真正有用的信息，但我不想添加配置单元查询，这可能会对性能造成很大影响，因为我有100多个转换提前感谢您的帮助！

浏览 1提问于2020-08-05得票数 0

2回答

spark HWC无法写入现有表

、、、、

在HDP 3.1.0中，HWC hive-warehouse-connector-assembly-1.0.0.3.1.0.0-78.jar，i不能根据数据库追加(或覆盖)到现有的表。我在一个名为DSN的数据库上测试，它工作，但在另一个名为CLEAN_CRYPT的数据库上它失败了。两个数据库都是加密的+ kerberos

浏览 2提问于2020-01-28得票数 2

2回答

如何检索Hive表分区位置？

Show Partitions ->在Hive/Spark中，此命令仅提供分区，而不提供hdfs/s3上的位置信息由于我们为表中的每个分区维护不同的位置，有没有一种方法可以在不查询Metastore表的情况下使用Hive/Spark检索位置信息？

浏览 33提问于2018-08-20得票数 0

回答已采纳

1回答

如何对数据进行物理分区以避免Spark* SQL连接中的混洗*

我需要连接5个中等大小的表(每个表大约80 gb )和大约800 gb的大型输入数据。所有数据都驻留在配置单元表中。我使用Spark SQL 1.6.1来实现这一点。所有联接都是排序合并外部联接。也看到了大量的洗牌发生。我将hive中的所有表存储到相同数量的存储桶中，以便所有表中</

浏览 3提问于2016-10-25得票数 1

1回答

使用Spark在Qubole metastore中设置分区位置

、、、

如何在Qubole metastore中为我的Hive表设置分区位置？我知道这是Spark，但是如何使用MySQL访问它并传递带有修复的SQL脚本呢？更新:问题是ALTER TABLE table_name PARTITION (partition_spec) SET LOCATION对于>1000个分区运行缓慢。你知道如何直接更新Qubole的转移存储吗？我希望将批处理中的

浏览 1提问于2018-04-11得票数 0

3回答

Spark在加载Hive表时创建了多少个分区

、、、

即使是Hive表或HDFS文件，当Spark读取数据并创建数据帧时，我认为RDD/dataframe中的分区数量将等于HDFS中的partfile数量。但是，当我使用配置单元外部表进行测试时，我可以看到这个数量与数据帧中分区的部分文件数量.The数量119不同。该表是一个Hive分区表</em

浏览 69提问于2020-04-02得票数 3

1回答

查询整个配置单元外部表中未分区的列

、、、、

我有hive外部表(以拼图格式存储的s3文件)，用spark创建，大小约为30 GB，具有数百个分区。但是，我需要查询非分区列(比如SUPPLIER_ID)上的数据，以查看完整的事务历史记录，而不是特定于某个期间或日期(分区列)。在不确定Hive表上的哪个分区数据属于哪个分区的情况下，如何确保这种查询模式？

浏览 3提问于2021-06-09得票数 0

1回答

Spark HiveContext -从外部分区配置单元表分隔符读取问题

、、

我有一个外部分区Hive表，其下划线文件行格式的分隔字段以'|‘结尾，通过Hive直接读取数据是可以的，但当使用Spark的Dataframe API时，分隔符'|’不被考虑。创建外部分区表： hive> create external table external_delimited_table(value1 stri

浏览 6提问于2016-08-20得票数 2

1回答

如何使用HDFS目录分区

、、、

为了减少处理时间，我按日期对数据进行了分区，以便只使用必需的日期数据(而不是完整的表).So，在HDFS中，我的表存储如下现在我想选择min(date) from src_tbl，它将是2016-01-01，从trg_tbl中我想使用>= 2016-01(src_tbl min(date)) directories which wi

浏览 3提问于2016-06-18得票数 1

2回答

Spark SQL saveAsTable返回空结果

、、、、

我使用以下代码在Spark SQL中创建/插入数据到Hive表中： .builder() .master("local输入文件是本地文件系统上的csv。它在./spark-warehouse/tablename/下创建地块文件，并使用正确的create tab

浏览 3提问于2017-02-27得票数 3

4回答

从Hive查询时，分区表中的数据不会显示。

、、、

我不使用Spark进行分区！我在保存个人的拼花文件！我在Hive中有一个表(我使用Databricks)，它包含两个分区。我手动在这个表中添加了两个Spark分区： df = spark.read.csv(file_path.format(dat

浏览 0提问于2018-04-26得票数 1

回答已采纳

1回答

无法查看配置单元分区表中的数据

、、、

我有一个外部表，它有一个名为rundate的分区列。我可以使用以下命令将数据加载到表中然后，我使用以下命令创建分区 spark.sql("ALTER TABLE table ADD IF NOT EXISTS PARTITION(

浏览 10提问于2017-12-20得票数 0

回答已采纳

1回答

指定的分区列与table.Please的分区列不匹配，使用()作为分区列

、、、、

在这里，我试图将数据帧持久化到一个分区的蜂窝表中，并得到这个愚蠢的异常。我已经看过很多次了，但是找不到错误。org.apache.spark.sql.AnalysisException:指定的分区列(时间戳值)与表的分区列不匹配。请使用()作为分区列。下面是用来创建外部表的脚本， CREATE

浏览 2提问于2017-01-12得票数 1

1回答

在Tez中运行"count()“时行为上的差异*

、、、

我在Hadoop分布式文件系统路径和相关的hive表上有一个文件。这张桌子两边有30个隔板。我从HDFS中删除了5个分区，然后在hive表上执行"msck repair table <db.tablename>;"。它完成了精细但输出我尝试运行select count(*) <db.tablename>; (在tez上)--它失败了，出

浏览 1提问于2019-08-27得票数 1

回答已采纳

点击加载更多

Apache不使用来自Hive分区外部表的分区信息

如何解决此错误"org.apache.spark.SparkException:所请求的分区与火花壳中的tablename表不匹配“

无法从配置单元查询`saveAsTable`之后的Spark* DF - Spark SQL特定格式，与配置单元不兼容*

当指定分区时，Spark与Hive不兼容。

单元分区表读取所有分区，尽管有火花筛选器

如何使用HANA SDA虚拟表访问蜂窝酸表？

Spark - Get计数，同时保存到配置单元表(ORC)

spark HWC无法写入现有表

如何检索Hive表分区位置？

如何对数据进行物理分区以避免Spark* SQL连接中的混洗*

使用Spark在Qubole metastore中设置分区位置

Spark在加载Hive表时创建了多少个分区

查询整个配置单元外部表中未分区的列

Spark HiveContext -从外部分区配置单元表分隔符读取问题

如何使用HDFS目录分区

Spark SQL saveAsTable返回空结果

从Hive查询时，分区表中的数据不会显示。

无法查看配置单元分区表中的数据

指定的分区列与table.Please的分区列不匹配，使用()作为分区列

在Tez中运行"count()“时行为上的差异*

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐