前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop离线数据分析平台实战——520项目总结Hadoop离线数据分析平台实战——520项目总结

Hadoop离线数据分析平台实战——520项目总结Hadoop离线数据分析平台实战——520项目总结

作者头像
Albert陈凯
发布2018-04-08 11:56:22
8470
发布2018-04-08 11:56:22
举报
文章被收录于专栏:Albert陈凯Albert陈凯

Hadoop离线数据分析平台实战——520项目总结

到这里本次项目也就介绍完了,不过在项目最后简单的介绍一些数字以及项目优化、扩展等情况 通过本次课程的学习,希望同学们对离线数据分析这一块有一个初步的了解, 希望同学们在学习完本课程后,对如何在工作中使用离线数据分析有一个初步的了解。 在本次课程中,我主要目标是放到了如何产生用户浏览数据以及如何解析数据, 对应解析后的数据结果展示,讲解的不是特别的详细, 所以希望同学们在学习之余,自己想想如何能够更好的显示解析后的数据, 最后祝同学们能够有一个好的开始。

实际工作中常见的数字:

代码语言:javascript
复制
如果只有launch和pageview事件,一千万的数据一般文件大小为7G左右。
单台的Nginx+Flume基本可以支持数据的传输操作,
但是最好使用两台机器做负载均衡/容错机制。
如果IP解析采用我们项目中介绍的这种,在集群规模为3+8(3台机器为NN+RM, 8台机器为DN+NM)的情况下,所有的mr和hive程序运行时间在一个小时以内。

优化:

MR程序:

代码语言:javascript
复制
    进行hadoop、hbase等参数调优,使用多个reducer等。

Hive程序:

代码语言:javascript
复制
    指定使用多个reducer、设置hive执行mr时候的内存参数、调整HQL语句结构等

数据展示:

代码语言:javascript
复制
    对应api的产生可以通过添加cache的方式减少查询数据的次数等。

扩展:

数据收集

代码语言:javascript
复制
    可以通过Nginx的负载均衡机制动态的根据项目的需要添加Nginx+Flume的数据传输机器,
    需要注意的是在采用负载均衡的时候,flume配置中最后在文件产生格式中添加一个编号来分别表示不同的机器产生的日志记录。

数据解析:

代码语言:javascript
复制
    利用hadoop的本身优势,可以动态的添加datanode节点,增大数据的执行能力。

数据展示:

代码语言:javascript
复制
    可以利用Nginx的负载均衡机制,在nginx服务器之后提供多台tomcat的服务器来提供实际应用。
    (和其他的java web程序类似)
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.09.03 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Hadoop离线数据分析平台实战——520项目总结
    • 实际工作中常见的数字:
      • 优化:
        • MR程序:
        • Hive程序:
        • 数据展示:
      • 扩展:
        • 数据收集
        • 数据解析:
        • 数据展示:
    相关产品与服务
    负载均衡
    负载均衡(Cloud Load Balancer,CLB)提供安全快捷的流量分发服务,访问流量经由 CLB 可以自动分配到云中的多台后端服务器上,扩展系统的服务能力并消除单点故障。负载均衡支持亿级连接和千万级并发,可轻松应对大流量访问,满足业务需求。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档