首页
学习
活动
专区
工具
TVP
发布

大数据开发

专栏作者
212
文章
207581
阅读量
25
订阅数
大数据开发:Spark SQL数据处理模块
Spark SQL作为Spark当中的结构化数据处理模块,在数据价值挖掘的环节上,备受重用。自Spark SQL出现之后,坊间甚至时有传言,Spark SQL将取代Hive,足见业内对其的推崇。今天的大数据开发学习分享,我们就来讲讲Spark SQL数据处理模块。
成都加米谷大数据
2021-08-03
7700
大数据开发:Spark MLlib组件学习入门
在Spark生态圈当中,MLlib组件,作为机器学习库而存在,在大数据分析、数据挖掘等数据处理操作上,提供重要的支持。学习Spark,对于MLlib组件的学习,也可以有相应程度的掌握。今天的大数据开发学习分享,我们就来讲讲Spark MLlib组件学习入门。
成都加米谷大数据
2021-08-02
7840
大数据开发:Spark Structured Streaming特性
在Spark框架当中,早期的设计由Spark Streaming来负责实现流计算,但是随着现实需求的发展变化,Spark streaming的局限也显露了出来,于是Spark团队又设计了Spark Structured Streaming。今天的大数据开发学习分享,我们就主要来讲讲,Spark Structured Streaming特性。
成都加米谷大数据
2021-07-30
6940
大数据开发:Spark运行原理
在大数据的诸多技术框架当中,Spark发展至今,已经得到了广泛的认可。Hadoop与Spark可以说是大部分企业级数据平台的主流选择,基于不同的应用场景,结合实际需求,来选择相应的技术架构。今天我们来聊聊Spark运行原理。
成都加米谷大数据
2021-07-29
3260
大数据开发:Spark核心概念RDD入门
Spark在大数据处理上的优势,很大一部分来自数据处理速度的提升,这使得Spark在面对大规模实时计算的数据任务时,能够更快地完成大批量数据的处理,提升大数据处理的效率。而Spark获得的这些优势,核心关键在于RDD,今天我们为大家讲讲Spark核心RDD概念。
成都加米谷大数据
2021-07-28
3220
Flink会取代Spark吗?谈谈大数据框架之间的竞争
在大数据计算领域,先后出现了Hadoop、Spark、Storm、Flink等多个计算框架,并且每每当一个新兴计算引擎出现,大家就忍不住拿来与早期的计算引擎进行对比。然后就会出现诸如Flink会取代Spark吗,Flink和Spark哪个好等等的问题讨论。今天我们就来聊聊大数据框架之间的竞争。
成都加米谷大数据
2021-07-27
9570
大数据开发:Spark数据处理核心架构
作为大数据领域主流运用的大数据计算框架之一,Spark这几年的发展态势也越来越好了。一方面是由于Spark在不断地完善,更适用于现阶段的大数据处理;另一方面则是因为Spark确实在大数据处理上表现出了强大的优势。
成都加米谷大数据
2021-07-26
6350
大数据开发:Hadoop Hive和Spark的对比
在大数据处理框架不断更新和优化的过程中,Hadoop和Spark之间既有竞争关系,也有相互协同的需求。比方说Hive和Spark,在一段时间内,很多人认为Spark会代替Hive,作为Hadoop的数据仓库,Hive真的已经落后了吗?
成都加米谷大数据
2021-07-13
1.5K0
Hadoop和spark:兼容才是可靠的解决方案
说起大数据计算框架,Hadoop和Spark这两者之间,一直都是存在着争议的,甚至一度还出现了Spark会替代Hadoop的声音,但是随着这两年的发展,事实告诉大家,Hadoop和Spark这两者之间,谁也没有消灭谁,都好好地存在着。
成都加米谷大数据
2021-07-05
5220
大数据入门:Spark是否依赖Hadoop?
犹记得,Spark在2013年才开始陆续传到国内,而再此之前,大数据领域可以说是Hadoop的天下。但是仅在一年多左右的时间,Spark就迅速成为了新一代的大数据框架的选择,光环甚至一度超过Hadoop,而关于Hadoop和Spark的争议,也一直没断过。比如说Spark是否依赖hadoop?
成都加米谷大数据
2021-06-29
1.4K0
什么是大数据开发?看完我终于懂了......
从大数据开发的工作内容来看大数据开发主要负责大数据的大数据挖掘,数据清洗的发展,数据建模工作。
成都加米谷大数据
2021-04-02
10.5K0
大数据开发:Spark入门详解
众所周知,Spark 它是专门为大规模数据处理而设计的快速通用计算引擎,因此Spark它在数据的挖掘等领域便有着非常广泛的应用,而从现阶段来讲的话它也已经形成了一个高速发展并且应用相当广泛的生态系统了。所以,今天这篇文章便要为大家做一个Spark入门基础的简单介绍,满满干货,请不要错过。
成都加米谷大数据
2021-03-02
8320
大数据开发:Hive on Spark设计原则及架构
在Spark越来越受到主流市场青睐的大背景下,Hive作为Hadoop生态当中的数仓组件工具,在于Spark生态的配合当中,开始有了Hive on Spark的思路,那么具体是怎么实现的呢?今天的大数据开发分享,我们来讲讲Hive on Spark设计原则及架构。
成都加米谷大数据
2021-01-25
7360
大数据入门:Spark RDD、DataFrame、DataSet
在Spark的学习当中,RDD、DataFrame、DataSet可以说都是需要着重理解的专业名词概念。尤其是在涉及到数据结构的部分,理解清楚这三者的共性与区别,非常有必要。今天的大数据入门分享,我们就主要来讲讲Spark RDD、DataFrame、DataSet。
成都加米谷大数据
2020-12-15
1.8K0
大数据入门:Spark持久化存储策略
持久化存储是Spark非常重要的一个特性,通过持久化存储,提升Spark应用性能,以更好地满足实际需求。而Spark的持久化存储,根据不同的需求现状,可以选择不同的策略方案。今天的大数据入门分享,我们就来具体讲讲Spark持久化存储策略。
成都加米谷大数据
2020-12-14
1.6K0
大数据入门:Java和Scala编程对比
在学习大数据之初,很多人都会对编程语言的学习有疑问,比如说大数据编程主要用什么语言,在实际运用当中,大数据主流编程是Java,但是涉及到Spark、Kafka框架,还需要懂Scala。今天的大数据入门分享,我们就来对Java和Scala这两门语言的编程做个对比。
成都加米谷大数据
2020-12-10
6.5K1
大数据入门:Spark RDD基础概念
在Spark框架的核心部分,SparkCore作为平台基础通用执行引擎,重要性自是不必多说。而在SparkCore当中,RDD作为SparkCore的核心抽象,是需要重点搞懂的概念。今天的大数据入门分享,我们就来讲讲Spark RDD入门基础。
成都加米谷大数据
2020-12-09
8850
大数据入门:Spark Streaming实际应用
作为Spark负责流计算的核心组件,Spark Streaming是整个Spark学习流程当中非常重要的一块。对于Spark Streaming,作为Spark流计算的实际承载组件,我们也需要更全面的掌握。今天的大数据入门分享,我们就来讲讲Spark Streaming实际应用。
成都加米谷大数据
2020-11-30
5800
大数据入门:Scala大数据黄金语言
在大数据的学习当中,关于编程语言选择的部分,是很多人在学习初期非常关注的。在企业大数据平台开发场景下,Java语言是主流选择,其次涉及到Spark部分,就不得不提到Scala语言。今天的大数据入门分享,我们就具体来讲一讲大数据黄金语言Scala。
成都加米谷大数据
2020-11-27
8730
大数据框架:Spark 生态实时流计算
在Spark框架当中,提起流计算,那么主要就是Spark Streaming组件来负责。在大数据的发展历程当中,流计算正在成为越来越受到重视的趋势,而Spark Streaming流计算也在基于实际需求不断调整。今天的大数据学习分享,我们就主要来讲讲Spark 实时流计算。
成都加米谷大数据
2020-11-20
1.4K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档