“卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新
本节主要内容:
百倍的运行速度。
Spark使用先进的DAG调度系统,查询优化器与物理执行引擎,实现了批处理与流处理的高性能。
df = spark.read.json("logs.json") df.where("age > 21") .select("name.first").show()
支持的开发语言:Scala、Java、Python、R语言、SQL
Spark是大规模数据处理的统一分析引擎。
Spark顶层架构
Spark 保护的主要模块有四部分 Spark SQL,Spark Streaming,MLlib(机器学习),GraphX(图计算)。
使用Spark开发的应用程序,可以在多处运行。 支持Spark应用发布的有:
支持多中数据源 HDFS, Apache Cassandra, Apache HBase, Apache Hive, 关系型数据库,以及数百个其他数据源。
本节完成
长按关注从入门到精通