Apache Spark 是一个快速、通用的大规模数据处理引擎,可用于进行大数据分析和处理。它支持多种数据源,包括 MySQL。通过 Spark 从 MySQL 获取数据,通常涉及到使用 Spark SQL 或者 JDBC 连接器。
从 MySQL 获取数据到 Spark 主要有两种方式:
这种数据集成方式广泛应用于数据仓库、实时数据分析、机器学习模型训练等场景。
from pyspark.sql import SparkSession
# 创建 SparkSession
spark = SparkSession.builder \
.appName("Spark MySQL Example") \
.getOrCreate()
# 读取 MySQL 数据
df = spark.read \
.format("jdbc") \
.option("url", "jdbc:mysql://localhost:3306/mydatabase") \
.option("dbtable", "mytable") \
.option("user", "myuser") \
.option("password", "mypassword") \
.load()
# 显示数据
df.show()
请注意,以上代码和信息仅供参考,实际应用中可能需要根据具体情况进行调整。
领取专属 10元无门槛券
手把手带您无忧上云