前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系

《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系

作者头像
Albert陈凯
发布2018-04-04 15:31:31
1.2K0
发布2018-04-04 15:31:31
举报
文章被收录于专栏:Albert陈凯Albert陈凯

《Hadoop大数据技术体系:原理、内幕与项目实践》课程体系 课程特色: 本课程以 “互联网日志分析系统”这一大数据应用案例为主线,依次介绍相关的大数据技术,涉及数据收集,存储,数据分析以及数据可视化,最终会形成一个完整的大数据项目。

本课程以目前主流的,最新Hadoop稳定版2.7.x为基础,同时兼介绍3.0版本新增特性及使用,深入浅出地介绍Hadoop大数据技术体系的原理、内幕及案例实践, 内容包括大数据收集、存储、分布式资源管理以及各类主要计算引擎, 具体包括数据收集组件Flume、分布式文件系统HDFS,分布式资源管理系统YARN、分布式查询引擎Hive和Presto,以及数据可视化(包括Hue、D3、EChat等),涉及各组件基本原理,使用方法,实战经验(优化技巧)以及在线演示。

本课程精心设计了互联网日志分析系统这一案例,帮助大家在理解理论的基础上,亲手实践Hadoop。

基础要求: 了解Linux基础知识,掌握Java语言基础 目标人群: 大数据爱好者,Hadoop初中级学者,希望系统性学习Hadoop的人 主讲老师: **

** Hulu****大数据团队 董西成,毕业于中国科学院,hulu大数据架构组负责人;《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》作者;资深Hadoop技术实践者和研究者,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计。

谭政,毕业于北京大学,曾就职于新浪微博平台研发部;曾参与微博核心Feed系统的改造,主导多机房数据同步和容灾部署,Spark内核级优化和企业推广,Hadoop集群升级与优化,Hive On Tez优化以及推广等工作。

张虔熙,毕业于中国科学院,HBase Contributor;参与维护并优化千节点规模的Hadoop集群,对分布式存储系统有深入研究(源码级修改),尤其擅长HDFS/HBase调优及应用;利用impala与presto大数据查询引擎构建企业级OLAP引擎,对高性能查询优化有丰富经验。

课程大纲 第一部分 Hadoop 概述(共1课时)

1.1 大数据背景 1.2 大数据技术体系 1.3 Hadoop生态系统构成以及核心组件 1.4 Hadoop主流发行版以及选型 包括Apache、CDH、 HDP等 1.5 Hadoop单机及分布式集群搭建方法(在线演示) 1.6 Hadoop典型应用场景 包括日志分析,搜索引擎索引构建、机器学习等 1.7 课程综合案例:分布式日志分析系统 介绍分布式日志分析系统的背景、关键模块、以及采用的关键大数据技术 。

**第二部分 大数据技术体系关键组件原理、使用与实战(共8.5课时)**** **

2.1 分布式数据收集:Flume原理与应用(共1课时) 2.1.1 Flume产生背景 2.1.2 Flume基本原理及架构 2.1.3 Flume部署模式(在线演示) 2.1.4 Flume与Hadoop整合应用与实战 2.1.5 分布式日志分析系统:数据收集模块剖析 详细介绍基于TailDir和Pool Directory Source,File Channel以及HDFS sink收集日志的flume拓扑构建方式。 2.2 分布式文件系统:HDFS基础与应用(共1课时) 2.2.1 HDFS产生背景 2.2.2 HDFS基本原理 2.2.3 HDFS架构以及关键组件 2.2.4 HDFS使用方式(在线演示) 2.2.5 HDFS优化小技巧 2.2.6 分布式日志分析系统:文件存储模块剖析 详细介绍日志文件在HDFS存放方式,以及如何解决小文件,文件归档等问题。 2.3 分布式资源管理系统:YARN架构与应用 (共1课时) 2.3.1 YARN产生背景 2.3.2 YARN基本原理以及架构 2.3.3 YARN资源调度器(Capacity Scheduler以及Fair Scheduler) 2.3.4 YARN基于标签的调度策略以及启用方式 2.3.5 YARN典型应用场景及在大数据系统中的地位 2.3.6 分布式日志分析系统:资源管理模块剖析 详细介绍容量调度器,多队列管理,如何启用基于标签的调度机制 2.4 分布式计算:批处理引擎MapReduce(第一部分)(共1课时) 2.4.1 MapReduce产生背景 2.4.2 MapReduce基本原理 2.4.3 MapReduce基本架构 2.4.4 MapReduce Java分布式程序设计(在线演示) 2.4.5 什么情况下Spark性能比MapReduce差 2.4.6 MapReduce的未来 2.5 分布式计算:批处理引擎MapReduce(第二部分)(共1课时) 2.5.1 MapReduce回顾 2.5.2 MapReduce多语言程序设计(在线演示) 2.5.3 MapReduce优化小技巧 2.5.4 分布式日志分析系统:ETL模块剖析 详细介绍如何使用Java API以及Hadoop Streaming方式设计ELT程序。 2.6 分布式计算:数据分析引擎Hive(第一部分)(共1课时) 2.6.1 Hive产生背景 2.6.2 Hive基本架构以及部署模式 2.6.3 Hive HQL基础(在线演示) 2.6.4 Hive创建Parquet与ORC表 2.6.5 总结 2.7 分布式计算:数据分析引擎Hive(第二部分)(共1课时) 2.7.1 Hive编程访问 2.7.2 Hive On Tez/Spark 2.7.3 Hive优化小技巧 2.7.4 分布式日志分析系统:数据仓库模块剖析 详细介绍如何在Hive中进行数据建模,并使用Hive查询引擎查询日志数据。 2.8 分布式计算:数据查询引擎Presto(共1课时) 2.8.1 Presto产生背景 2.8.2 Presto基本架构以及部署模式 2.8.3 Presto SQL基础(在线演示) 2.8.4 Presto优化小技巧 2.8.5 分布式日志分析系统:数据仓库查询模块剖析 详细介绍如何使用Presto加速数据查询效率(相比于Hive) 2.9 大数据可视化:可视化主流方案(共0.5课时) 2.9.1 什么是大数据可视化 2.9.2 可视化主流解决方案 2.9.3 EChart,D3,tableau, Hue等 2.9.4 分布式日志分析系统:报表可视化模块剖析 详细介绍如何构建日志分析系统的可视化模块。

第三部分 综合案例回顾:分布式日志分析系统(共0.5课时)

3.1 案例背景 3.2 基本架构与关键模块 3.3 日志分析系统部署及维护 3.4 总结

常见问题: Q****: 会有实际上机演示和动手操作吗? A: 有的,几乎每节课,老师均会准备上机演示部分,学员可以学习老师的实践经验。 Q****: 本课程主要是基于Hadoop 2.7.x版本吗,如果3.0成熟了,内容会不会过期? A: 不会的。本课程以介绍Hadoop基本原理和使用技巧为主,这些内容适用于2.x之后各个版本,尽管Hadoop3.x有稍许的改动,但学员学完这门课后,应该有能力主动学习这些新功能和特性。 Q****: 本课程有专门的答疑时间吗? A: 有的。助教会统一收集学员问题,老师在每节课最后部分,会在线回答20~30个问题,并由助教整理后发布到问答社区中。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.06.26 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档