前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >14.1 Apache Spark 简介快速入门

14.1 Apache Spark 简介快速入门

作者头像
王小雷
发布2019-05-28 09:15:10
3610
发布2019-05-28 09:15:10
举报
文章被收录于专栏:王小雷王小雷

14.1 Apache Spark 简介快速入门

卜算子·大数据”一个开源、成体系的大数据学习教程。——每周日更新

本节主要内容:

  • 速度
  • 简单易用
  • Spark架构
  • 到处运行
  • 多种数据源

14.1.1 速度

百倍的运行速度。

Spark使用先进的DAG调度系统,查询优化器与物理执行引擎,实现了批处理与流处理的高性能。

这里写图片描述
这里写图片描述

14.1.2 简单易用、支持开发语言丰富

df = spark.read.json("logs.json") df.where("age > 21")   .select("name.first").show()

支持的开发语言:Scala、Java、Python、R语言、SQL

14.1.3 Spark架构

Spark是大规模数据处理的统一分析引擎。

Spark顶层架构

这里写图片描述
这里写图片描述

Spark 保护的主要模块有四部分 Spark SQL,Spark Streaming,MLlib(机器学习),GraphX(图计算)。

  • Spark SQL是处理结构化数据的模块。可以使得开发人员使用SQL语句做数据挖掘。简单、强大。
  • Spark Streaming 可以轻松构建可扩展的容错流应用程序。可以实时处理数据,是构建实时大数据处理应用核心。
  • MLlib(Machine Learning)是可扩展的机器学习库。聚类、分类等封装好的算法大幅降低机器学习与大数据应用结合的难度。方便、易用,。
  • GraphX(graph)用于图像与图像并行计算。

14.1.4 到处运行

使用Spark开发的应用程序,可以在多处运行。 支持Spark应用发布的有:

  • Hadoop(hadoop YARN)
  • Apache Mesos
  • Kubernetes
  • standalone(Spark自身的独立部署模式)

14.1.5 多种数据源

支持多中数据源 HDFS, Apache Cassandra, Apache HBase, Apache Hive, 关系型数据库,以及数百个其他数据源。

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

本节完成

长按关注从入门到精通

源码获取 https://github.com/wangxiaoleiAI/big-data

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年07月15日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 14.1 Apache Spark 简介快速入门
    • 14.1.1 速度
      • 14.1.2 简单易用、支持开发语言丰富
        • 14.1.3 Spark架构
          • 14.1.4 到处运行
            • 14.1.5 多种数据源
            相关产品与服务
            大数据
            全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档