首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

Spark Core 整体介绍

Freedom123

DiskStore磁盘存储:spark会在磁盘上创建spark文件夹,命名为(spark-local-x年x月x日时分秒-随机数),block块都会存在这里,然...

7610

Spark SQL 整体介绍

Freedom123

spark-shell、spark-sql 都是是一个独立的 spark application,启动几个就要几个application,非常耗资源

5310

Spark 单机部署

Freedom123

1. scala配置 https://www.scala-lang.org/download/2.11.8.html

7710

spark 集群搭建

Freedom123

一. 集群规划 node01为master节点,node02,node03为worker节点

7210

Spark Streaming 整体介绍

Freedom123

1. 概要     Hadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐,实时网站性能分析等...

6310

Spark Sql 详细介绍

Freedom123

    当使用Hive时,必须初始化一个支持Hive的SparkSession,用户即使没有部署一个Hive的环境仍然可以使用Hive。当没有配置hive-si...

11310

Spark RDD 整体介绍

Freedom123

    spark-shell : Spark 的交互式客户端,启动那一刻就开始执行任务,一般不用这种执行方式。

8110

Spark 整体介绍

Freedom123

    Spark 是一个大数据运算框架,使用了DAG调度程序,比基于Hadoop MapReduce 运行速度提高了100倍以上     Spark 是一个...

7810

Spark:大数据处理的下一代引擎

为了伟大的房产事业

随着大数据的快速增长,处理和分析大数据变得愈发重要。在这一背景下,Apache Spark作为大数据处理的下一代引擎崭露头角。它是一个开源的、快速的、通用的...

5810

Hadoop 和大数据的关系是什么?和 Spark的关系是什么?

LakeShen

最近在知乎上面看到这样一个问题:Hadoop 和大数据的关系?和 Spark 的关系?

7510

苹果开源一个可提升 Apache Spark 向量处理速度的插件

深度学习与Python

消费电子巨头苹果公司发布了一个开源插件,可以帮助 Apache Spark 更有效地执行向量搜索,使开源数据处理平台在大规模机器学习数据处理方面变得更有吸引力。

8910

python处理大数据表格

mariolu

vivo · 后台开发工程师 (已认证)

假设你有1亿条记录,有时候用到75%数据量,有时候用到10%。也许你该考虑10%的使用率是不是导致不能发挥最优性能模型的最关键原因。

12110

python处理大数据表格

mariolu

vivo · 后台开发工程师 (已认证)

假设你有1亿条记录,有时候用到75%数据量,有时候用到10%。也许你该考虑10%的使用率是不是导致不能发挥最优性能模型的最关键原因。

12110

Spark+Celeborn:更快,更稳,更弹性

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Apache Spark 是广为流行的大数据处理引擎,它有很多使用场景: Spark SQL、批处理、流处理、MLLIB、GraphX 等。在所有组件下是统一的...

23210

我攻克的技术难题 - Spark01:初见Spark,又是Hello World?

叫我阿柒啊

在18年初刚开始接触学习spark的时候,买了一本《Spark大数据处理技术》的书,虽然后来一些Spark开发的知识都是从官网和实践中得来的,但是这本书对我来说...

17510

Spark框架深度理解一:开发缘由及优缺点

fanstuck

由于Spark框架大多都搭建在Hadoop系统之上,要明白Spark核心运行原理还是得对Hadoop体系有个熟悉的认知。之前有写过从Hadoop1.0到Hado...

26720

spark的机器学习库mllib

mariolu

vivo · 后台开发工程师 (已认证)

Apache Spark是大数据流行的开源平台。MMLib是Spark的开源学习库。MMLib提供了机器学习配置,统计,优化和线性代数等原语。在生态兼容性支持S...

13710

大数据时代中 Spark Graphx 图计算的崭新前景

网罗开发

随着大数据时代的来临,传统SQL方式在处理海量数据的N度关联关系时显得力不从心。图计算技术因其优越性开始崭露头角,尤其在金融领域、广告推荐等实际场景中迅速落地。...

13000

挑战 Spark 和 Flink?大数据技术栈的突围和战争|盘点

深度学习与Python

十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每...

38210
领券