前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据笔记(一):大数据启蒙与入门知识

大数据笔记(一):大数据启蒙与入门知识

作者头像
Lansonli
修改2022-04-28 05:47:04
3710
修改2022-04-28 05:47:04
举报
文章被收录于专栏:Lansonli技术博客

大数据启蒙与入门知识

一、前言

博主语录:一文精讲一个知识点,多了你记不住,一句废话都没有

经典语录:那日看雪,你从未看我,我从未看雪

二、千里之行,始于足下

  • 启蒙很重要
  • 分治思想
  • 单机处理大数据问题
  • 集群分布式处理大数据的辩证

三、分治思想

需求:

  • 我有一万个元素(比如数字或单词)需要存储?
  • 如果查找某一个元素,最简单的遍历方式复杂的是多少?
  • 如果我期望复杂度是O(4)呢?

学习知识的时候要去搞明白它存在的意义,这样学习成本才会低

分而治之的思想很重要,出现在了很多地方:

  • Redis集群
  • ElasticSearch
  • Hbase
  • HADOOP生态无处不在! 

四、单机处理大数据问题

需求:

  • 有一个非常大的文本文件,里面有很多很多的行,只有两行一样,它们出现在未知的位置,需要查找到它们
  • 单机,而且可用的内存很少,也就几十兆

解决思路: 

  • 假设Io速度是500MB每秒
  • 1T文件读取一遍需要约30分钟
  • 循环遍历需要N次Io时间
  • 分治思想可以使时间为2次io

小贴士:内存寻址比Io寻址快10万倍

思考: 如果让时间变为分钟、秒级别

五、集群分布式处理大数据的辩证

  • 2000台真的比一台速度快吗?
  • 如果考虑分发上传文件的时间呢?
  • 如果考虑每天都有1T数据的产生呢?
  • 如果增量了一年,最后一天计算数据呢?

结论

  • 分而治之 并行计算
  • 计算向数据移动
  • 数据本地化读取
  • 以上这些点是学习大数据技术时需要关心的重点

六、Hadoop之父Doug Cutting

  • Hadoop的发音是 [hædu:p]
  • Cutting儿子对玩具小象的昵称
  • Nutch Lucene
  • Avro
  • Hadoop

七、Hadoop的时间简史

  • 《The Google File System 》 2003年
  • 《MapReduce: Simplified Data Processing on Large Clusters》 2004年
  • 《Bigtable: A Distributed Storage System for Structured Data》 2006年
  • Hadoop由 Apache Software Foundation 于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。
  • 2006 年 3 月份,Map/Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中。
  • Cloudera公司在2008年开始提供基于Hadoop的软件和服务。
  • 2016年10月hadoop-2.6.5
  • 2017年12月hadoop-3.0.0
  • hadoop.apache.org

八、Hadoop项目/生态

The project includes these modules:

  • Hadoop Common
  • Hadoop Distributed File System (HDFS™)
  • Hadoop YARN
  • Hadoop MapReduce

Other Hadoop-related projects at Apache include:

  • Ambari™
  • Avro™
  • Cassandra™
  • Chukwa™
  • HBase™
  • Hive™
  • Mahout™
  • Pig™
  • Spark™
  • Tez™
  • ZooKeeper™

九、大数据生态

www.cloudera.com

https://www.cloudera.com/Cloudera’s Distribution Including Apache Hadoop CDH is the most complete,tested, and popular distribution of Apache Hadoop and related projects.


本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022/04/20 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 大数据启蒙与入门知识
    • 一、前言
      • 二、千里之行,始于足下
        • 三、分治思想
          • 四、单机处理大数据问题
            • 五、集群分布式处理大数据的辩证
              • 六、Hadoop之父Doug Cutting
                • 七、Hadoop的时间简史
                  • 八、Hadoop项目/生态
                    • 九、大数据生态
                    相关产品与服务
                    大数据
                    全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档