前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Java大数据学习01–大数据的本质及学习顺序介绍

Java大数据学习01–大数据的本质及学习顺序介绍

作者头像
全栈程序员站长
发布2022-09-01 15:15:57
1670
发布2022-09-01 15:15:57
举报
文章被收录于专栏:全栈程序员必看

大家好,又见面了,我是你们的朋友全栈君。

随着互联网的使用人数越来越多,产生的数据也越来越多。根据数据我们可以分析出很多有用的信息。这也就是当前为什么大数据这么火的行为。

学习大数据有很多种方式,但我们学习的载体是以目前最普遍,最流行的Java语言来进行学习。

下面我们进入正题:

1、首先是大数据的本质:

大数据的本质无非两条:大数据的存储(Hadoop)和大数据的计算(Spark)

存储:由于数据量巨大,把所有数据存在一个机器中是不现实的,容量不够而且也不安全。所以必须要用分布式的文件系统来进行存储。

计算:使用分布式计算。

2、学习路线:

(1)Java基础和Linux基础 (2)Hadoop的学习:体系结构、原理、编程 第一阶段:HDFS(分布式文件管理系统)、MapReduce(分布式运算编程框架)、Yarn(运算资源调度系统)、HBase(NoSQL数据库) 第二阶段:数据分析引擎 —> Hive、Pig 数据采集引擎 —> Sqoop(hadoop与传统数据库导入导出数据的接口:数据库中<==>HDFS)、Flume(日志收集工具:将大规模流数据导入HDFS) 第三阶段:HUE:Web管理工具 ZooKeeper:实现Hadoop的HA Oozie:工作流引擎 (3)Spark的学习 第一个阶段:Scala编程语言 第二个阶段:Spark Core—–> 基于内存,数据的计算 第三个阶段:Spark SQL —–> 类似Oracle中的SQL语句 第四个阶段:Spark Streaming —> 进行实时计算(流式计算):比如:自来水厂 (4)Apache Storm:类似Spark Streaming —> 进行实时计算(流式计算):比如:自来水厂 NoSQL:Redis基于内存的数据库

之后跟我一起来一点一滴认识和了解大数据的各种工具(Hadoop家族)

喜欢的朋友点个赞哦~~

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/140310.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年5月2,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
流计算 Oceanus
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档