文章/答案/技术大牛

发布

如何在不知道数据库表模式的情况下按分区加载到spark中

在不知道数据库表模式的情况下按分区加载到Spark中，可以通过以下步骤实现：

连接数据库：首先，需要使用适当的数据库驱动程序连接到目标数据库。可以使用Java JDBC或其他适配器库来实现连接。
查询分区信息：通过执行SQL查询，获取表的分区信息。通常，可以使用DESCRIBE PARTITION或SHOW PARTITIONS等命令获取分区信息。
动态构建查询语句：根据查询到的分区信息动态构建SQL查询语句。可以使用字符串拼接或参数化查询的方式，将分区信息嵌入到查询语句中。
执行查询：使用连接后的数据库连接对象执行构建好的查询语句，并将结果保存到一个数据集中。
加载到Spark中：将查询结果的数据集加载到Spark中。可以使用Spark的DataFrame或DataSet API来加载数据。如果数据较大，可以考虑使用分区加载方式，以提高效率和性能。

注意：在不知道数据库表模式的情况下，无法直接通过分区加载来提高查询性能。分区加载通常用于已知表结构的情况下，根据分区条件过滤数据，从而减少加载的数据量。如果不知道表模式，可以考虑加载整个表的数据，然后在Spark中根据需要进行进一步的数据处理和分析。

对于以上问题的解答，腾讯云提供了一系列产品和服务，包括但不限于：

云数据库 MySQL：提供高性能、高可靠性的分布式关系型数据库服务，可用于存储和管理结构化数据。
云数据库 PostgreSQL：提供可扩展的关系型数据库服务，适用于复杂数据类型和高级查询需求。
云数据库 Redis：提供高性能、可扩展的内存数据库服务，适用于缓存、会话管理和实时分析等应用场景。
腾讯云数据万象（COS）：提供安全可靠的对象存储服务，适用于存储和管理大规模非结构化数据。
腾讯云 Spark：提供基于云原生的弹性大数据处理服务，支持大规模数据分析和机器学习任务。

以上腾讯云产品的详细介绍和文档链接可在腾讯云官方网站上获取。

页面内容是否对你有帮助？

有帮助

没帮助

如何在不知道数据库表模式的情况下按分区加载到spark中

、

我正在尝试使用JDBC连接将一个4000万大表加载到spark中。显然，分区加载就是这个问题的答案。问题是我不知道需要装载的表的模式，也不知道按哪个列进行分区。那么我如何从spark内部确定这一点呢？val s_log = spark.read.format("jdbc").option(

浏览 11提问于2019-06-26得票数 1

1回答

将配置单元分区表加载到Spark Dataframe

、、、、

我使用的是Spark 1.4.1版本。我正在尝试将一个已分区的配置单元表加载到一个DataFrame中，其中在配置单元表中按year_week编号进行分区，在这种情况下，我可能有104个分区。但是我可以看到DataFrame正在将数据加载到200个分区中，我知道这是因为spark.sql.sh

浏览 1提问于2016-03-28得票数 1

1回答

Spark和JDBC:遍历大型表并写入hdfs

、、、、

什么是最有效的内存方式来复制大型关系表的内容，然后用parquet格式写入分区的Hive表(没有sqoop)。我有一个基本的spark应用程序，我已经用spark的jdbc做了一些其他的调优，但是关系表中的数据仍然是0.5TB和20亿条记录，所以我虽然可以懒惰地加载完整的表，但我正在努力弄清楚如何根据日期有效地

浏览 5提问于2017-06-22得票数 1

2回答

当指定分区时，Spark与Hive不兼容。

、、、

一种边缘情况，当在带分区的Spark中保存拼花表时，final StructType schema = DataTypes.createStructType(Arrays.asListSpark特定格式的Hive转移，这与Hive不兼容 hive> describe tblclick8partitioned;col array<string> f

浏览 2提问于2016-08-31得票数 14

2回答

Spark流到配置单元，每个分区有太多小文件

、、、、

我有一个spark流作业，批处理间隔为2分钟(可配置)。dataset.coalesce(1).write().mode(SaveMode.Append).insertInto(targetEntityName)；现在传入的数据并不是那么大，如果我将批处理持续时间增加到10分钟左右，那

浏览 0提问于2018-03-20得票数 2

2回答

Apache Spark是否从目标数据库加载整个数据？

、、、

我想使用Apache Spark并通过JDBC连接到Vertica。似乎Spark从目标服务器加载了所有数据。这是我的代码： .option("url&

浏览 5提问于2017-02-16得票数 1

2回答

Spark注册的临时表不能在sqlContext.read()中使用？

、

java.sql.SQLSyntaxErrorException: Table 'myDbSchema.myTable' doesn't exist谢谢。

浏览 2提问于2020-08-09得票数 0

回答已采纳

3回答

将文件保存到Parquet时，分区列被移动到行尾

、

对于给定的DataFrame，在成为saved到parquet之前，这里是一个模式:注意，centroid0是第一个列，是StringType。 path=/git/block/target/scala-2.11/test-classes/data/output/blocking/out&#x

浏览 4提问于2018-06-21得票数 5

回答已采纳

2回答

星火知道DataFrame的分区键吗？

、、

我想知道星火是否知道分割键的地板文件，并使用这些信息，以避免洗牌。运行Spark2.0.1运行本地SparkSession。问题：如何检查DataFrame的分区键？这有命令吗？我知道如何检查<

浏览 0提问于2018-01-26得票数 21

回答已采纳

2回答

在HDP 3.1.0中，HWC hive-warehouse-connector-assembly-1.0.0.3.1.0.0-78.jar，i不能根据数据库追加(或覆盖)到现有的表。我在一个名为DSN的数据库上测试，它工作，但在另一个名为CLEAN_CRYPT的数据库上它失败了。两个数据库都是加密的+ kerberos import com.hortonworks.spark.sql.hive.llap.HiveW

浏览 2提问于2020-01-28得票数 2

2回答

如何有效地连接一个非常大的表和一个大表

、、、

这两个表都是以拼花数据格式存储的单元格中的外部表。两个表中都有一个公共列"lookup_id"。现在，我需要使用数据帧从table_1中获取table_2中</em

浏览 0提问于2020-07-04得票数 1

回答已采纳

2回答

蜂巢MetaStore的主要用途？

、、

我对MetaStore的目的有点困惑。当您在蜂巢中创建一个表时：LOAD DATA INPATH <HDFS_file_location> INTO table managed_table; 因此，我知道这个命令接受HDFS中文件的内容，并创建它的MetaData表单并将其存储在MetaStore中(包括列类型、列名、它在HDFS<

浏览 0提问于2018-01-31得票数 2

回答已采纳

1回答

将范围间隔分区数据从一个表移动到另一个数据库中的历史表。

、、、

我们有一个主表，它是按日期划分的范围，间隔一个月.它也是一个包含4个不同值的子分区列表。所以从本质上说，它是一个月的分区，有4个子分区。数据库: Oracle 19c另外，在主表上引用的

浏览 5提问于2022-05-11得票数 0

回答已采纳

1回答

火花查询性能差:如何提高星火查询性能？

、、、

因此，我们想研究spark的查询性能。然后我们把桌子缓存起来。我们从Spark中发现，Spark并没有将所有数据加载到内存中，而是将一些数据加载到

浏览 1提问于2016-03-08得票数 2

2回答

S3中的表到外部表每小时一次

、、、

我希望将数据从表导出到存储在中的外部表中。每小时，我都希望将Redshift源中的行导出到外部表目标中。在AWS中有什么样的选择来实现这一点？我知道有UNLOAD命令允许我将数据导出到S3，但我认为它不能将数据存储到外部表(也是分区的)。或者亚马逊EMR可能是唯一有效的方法？

浏览 0提问于2018-05-10得票数 0

回答已采纳

2回答

linq2sql C#：如何从更改架构名称的表中查询

、、、、

我有一个webservice，它试图连接到桌面会计应用程序的数据库。[DatabaseName].[202001].每当我想查询数据库中的客户信用信息时，我都应该从数据库中数量最多的模式(如[DatabaseName].[202016].[CustomerCredit] 202016是最新的</e

浏览 16提问于2020-02-19得票数 0

2回答

无法编写由两个压缩数据文件创建的PySpark数据

、、、

我试图遵循的方法，在没有共享连接键的情况下组合两个dataframes (通过数据库表中的“索引”或熊猫数据框架进行组合，但PySpark没有这个概念)：left_df = left_df.repartition但我不知道怎么做。我只知道如何指定分区的#，而不知道分区的方式。或者，更具体地说，如果没有可以使用的列，

浏览 1提问于2020-09-03得票数 1

2回答

使用java Spark* DataFrame通过jdbc访问Oracle*

、、、

我发现现有的用于访问传统数据库的Spark实现非常有限和有限。特别是：将分区参数传递给生成的SQL非常有限。最麻烦的是，我无法自定义如何进行分区的查询，它所允许的只是标识分区列和上下边界，但只允许一个数字列和值。我知道我可以像您做子查询一样向我的数据库提供查询，并将我的分区列映射到一个数值，但这将导致我的<

浏览 2提问于2015-03-27得票数 2

回答已采纳

1回答

在ETL中进行分期:最佳实践？

、、

目前，我所使用的体系结构提取了一些数据源，其中一个是本地的，因为它是托管在云中的。其他的无论如何都是本地托管的，所以我执行的ETL直接从源获取它。我不认为为其他来源创造一个舞台有什么意义。1)将本地托管的源复制到本地阶段是否有明显的好处？3)如果我试图减少我的ETL时间，有什么好的方法来做到这一点呢？我正在考虑对数

浏览 2提问于2014-06-02得票数 0

回答已采纳

1回答

如何在使用JDBC数据源时将用户名和密码传递给Spark？

、、、

我刚刚开始使用Spark从H2数据库加载数据，下面是我在Spark文档之后所做的工作：>>> df = sqlContext.load(这是Spark-SQL1.3.1文档中的参数：要连接到的JDBC。 dbtable应该读取的JDBC表。注意，任何在SQL查询的

浏览 3提问于2015-05-30得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在不知道数据库表模式的情况下按分区加载到spark中

相关·内容

如何在不知道数据库表模式的情况下按分区加载到spark中

将配置单元分区表加载到Spark Dataframe

Spark和JDBC:遍历大型表并写入hdfs

当指定分区时，Spark与Hive不兼容。

Spark流到配置单元，每个分区有太多小文件

Apache Spark是否从目标数据库加载整个数据？

Spark注册的临时表不能在sqlContext.read()中使用？

将文件保存到Parquet时，分区列被移动到行尾

星火知道DataFrame的分区键吗？

spark HWC无法写入现有表

如何有效地连接一个非常大的表和一个大表

蜂巢MetaStore的主要用途？

将范围间隔分区数据从一个表移动到另一个数据库中的历史表。

火花查询性能差:如何提高星火查询性能？

S3中的表到外部表每小时一次

linq2sql C#：如何从更改架构名称的表中查询

无法编写由两个压缩数据文件创建的PySpark数据

使用java Spark* DataFrame通过jdbc访问Oracle*

在ETL中进行分期:最佳实践？

如何在使用JDBC数据源时将用户名和密码传递给Spark？

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐