首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#spark

Apache Spark是一个开源集群运算框架,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

03-SparkSQL入门

JavaEdge

华为 · 软件开发工程师 (已认证)

Spark 的一个组件,用于大规模数据分析的 SQL 查询引擎。Shark 提供了一种基于 SQL 的交互式查询方式,可以让用户轻松地对大规模数据集进行查询和分...

200

01-Spark的Local模式与应用开发入门

JavaEdge

华为 · 软件开发工程师 (已认证)

必须设置集群?我才刚入门大数据诶,这么麻烦?劝退,不学了!还好 spark 也支持简单部署:

500

Spark 原理与实践 | 青训营笔记

鳄鱼儿

Spark 于 2009 年诞生于加州大学伯克利分校 AMPLab,2013 年被捐赠给 Apache 软件基金会,2014 年 2 月成为 Apache 的顶...

7610

Apache Spark 核心原理、应用场景及整合到Spring Boot

用户7353950

Apache Spark 是一种开源的大数据处理框架,它在2009年由加州大学伯克利分校的AMPLab开发,并在2010年贡献给了Apache软件基金会。Sp...

9010

0922-7.1.9-使用Spark和Hive访问Ozone

Fayson

8210

Spark Core 整体介绍

Freedom123

DiskStore磁盘存储:spark会在磁盘上创建spark文件夹,命名为(spark-local-x年x月x日时分秒-随机数),block块都会存在这里,然...

9110

Spark SQL 整体介绍

Freedom123

spark-shell、spark-sql 都是是一个独立的 spark application,启动几个就要几个application,非常耗资源

5610

Spark 单机部署

Freedom123

1. scala配置 https://www.scala-lang.org/download/2.11.8.html

8010

spark 集群搭建

Freedom123

一. 集群规划 node01为master节点,node02,node03为worker节点

7810

Spark Streaming 整体介绍

Freedom123

1. 概要     Hadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐,实时网站性能分析等...

7310

Spark Sql 详细介绍

Freedom123

    当使用Hive时,必须初始化一个支持Hive的SparkSession,用户即使没有部署一个Hive的环境仍然可以使用Hive。当没有配置hive-si...

11610

Spark RDD 整体介绍

Freedom123

    spark-shell : Spark 的交互式客户端,启动那一刻就开始执行任务,一般不用这种执行方式。

8510

Spark 整体介绍

Freedom123

    Spark 是一个大数据运算框架,使用了DAG调度程序,比基于Hadoop MapReduce 运行速度提高了100倍以上     Spark 是一个...

9110

Spark:大数据处理的下一代引擎

为了伟大的房产事业

随着大数据的快速增长,处理和分析大数据变得愈发重要。在这一背景下,Apache Spark作为大数据处理的下一代引擎崭露头角。它是一个开源的、快速的、通用的...

6410

Hadoop 和大数据的关系是什么?和 Spark的关系是什么?

LakeShen

最近在知乎上面看到这样一个问题:Hadoop 和大数据的关系?和 Spark 的关系?

8010

苹果开源一个可提升 Apache Spark 向量处理速度的插件

深度学习与Python

消费电子巨头苹果公司发布了一个开源插件,可以帮助 Apache Spark 更有效地执行向量搜索,使开源数据处理平台在大规模机器学习数据处理方面变得更有吸引力。

9910

python处理大数据表格

mariolu

vivo · 后台开发工程师 (已认证)

假设你有1亿条记录,有时候用到75%数据量,有时候用到10%。也许你该考虑10%的使用率是不是导致不能发挥最优性能模型的最关键原因。

12710

python处理大数据表格

mariolu

vivo · 后台开发工程师 (已认证)

假设你有1亿条记录,有时候用到75%数据量,有时候用到10%。也许你该考虑10%的使用率是不是导致不能发挥最优性能模型的最关键原因。

12710

Spark+Celeborn:更快,更稳,更弹性

Spark学习技巧

环数科技有限公司 · 数据库开发工程师 (已认证)

Apache Spark 是广为流行的大数据处理引擎,它有很多使用场景: Spark SQL、批处理、流处理、MLLIB、GraphX 等。在所有组件下是统一的...

30910
领券