PySpark 中通过 SQL 查询 Hive 表,你需要确保你的 Spark 环境已经配置好与 Hive 的集成。以下是一个简单的步骤和示例代码来展示如何实现这一点:
spark.sql
方法执行 SQL 查询。from pyspark.sql import SparkSession
# 创建 SparkSession 并启用 Hive 支持
spark = SparkSession.builder \
.appName("HiveQueryExample") \
.config("spark.sql.warehouse.dir", "/user/hive/warehouse") \
.enableHiveSupport() \
.getOrCreate()
# 查询 Hive 表
query = "SELECT * FROM your_database.your_table"
df = spark.sql(query)
# 显示查询结果
df.show()
# 停止 SparkSession
spark.stop()
spark-defaults.conf
)中包含了必要的 Hive 配置。spark.sql.warehouse.dir
配置项指定了 Hive 仓库的目录路径。原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。