专栏首页Albert陈凯Hadoop数据分析平台实战——210项目综述与需求分析离线数据分析平台实战——210项目综述与需求分析

Hadoop数据分析平台实战——210项目综述与需求分析离线数据分析平台实战——210项目综述与需求分析

离线数据分析平台实战——210项目综述与需求分析

项目综述

项目分别分为bf_track, bf_transforer和 bf_dataapi。 本次项目主要以分析七个模块的数据, 分别为用户基本信息分析、操作系统分析、地域信息分析、用户浏览深度分析、外链数据分析、订单信息分析以及事件分析。 那么针对不同的分析模块,我们又不同的用户数据需求,所以我们在bf_track项目中提供不同的客户端来收集不同的数据。 在bf_transformer中分别采用hive+mr两种方式进行数据分析。在bf_dataapi中进行分析结果的api提供以及结果图表展示。

收集系统(bf_track)总述

我们需要将用户浏览的数据采集到我们的存储系统(hdfs)中, 我们只收集pc端数据和程序后台的部分数据。在pc端我们通过集成js来收集用户浏览行为数据; 在程序后台,通过集成java的jar文件来收集我们需要的数据。 在这里只考虑java开发环境。 js/jar将收集的数据发送到nginx,然后flume监控nginx日志,将数据写入到hdfs中。

java sdk

由于本次课程中涉及到的七个模块数据,只有订单信息的分析由于需要明确是否进行支付,那么需要程序后台发送消息通知,故这里只有该订单分析模块需要在后台程序中调用。 档详见:..\文档\Java SDK需求文档&设计文档 .doc

js sdk

由于我们本次项目的重点就是分析pc端的数据,所以我们最终分析的七个模块基本上都需要从pc端获取不同的数据。具体需求文档详见:..\文档\JS SDK需求文档&设计文档.doc

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据项目如何落地之路线图探讨

    文 | 田军   今天,继续来谈一谈“大数据项目如何落地?”这个话题。从事过多个大数据项目的规划方案及项目落地工作,在这里与大家分享一些心得,主要是关于大数据...

    Albert陈凯
  • 2018-11-28 使用命令行curl 查询出口ip

    Albert陈凯
  • Hadoop数据分析平台实战——220项目结构整体概述离线数据分析平台实战——220项目结构整体概述

    离线数据分析平台实战——220项目结构整体概述 数据展示系统(bf_dataapi)总述 bf_dataapi项目的主要目标有两个: 第一个目标就是我们需要提...

    Albert陈凯
  • ONLYOFFICE协作编辑页面中文档下载地址url携带(传输)sessionid测试

    onlyoffice协作页面里有个文档下载地址,这个地址是第一个人打开这个文档的时候,服务器会根据这个文档地址,将文档管理服务器里的文档下载到onlyoffic...

    hotqin888
  • Wijmo 更优美的jQuery UI部件集:自定义 C1WijMenu

    C1Wijmo 全部的控件是完全可定制的,并且可以根据你自己的需求定制他们的界面外观。 我准备使用C1Menu演示这一点。 让我们从向控件应用自定义主题开始。 ...

    葡萄城控件
  • 推荐一些常用镜像及国内maven仓库

    http://www.sonatype.org/nexus/  私服nexus工具使用

    凯哥Java
  • 显示网卡当前速度的脚本

    显示网卡当前速度的脚本,速度是指网卡的连接速度,就是鼠标放到网卡图标上显示的速度

    力哥聊运维与云计算
  • 喜提多位顶级大咖!腾讯云最具价值专家阵容再度升级

    TVP作为技术生态建设的领航者,正在不断吸引着不同行业、不同领域的技术大咖入驻,他们的加入使得TVP阵容持续升级,不断扩大技术影响力,加速了云计算技术的发展与传...

    TVP官方团队
  • 如何解决混合云组网难题?

    企业用云量持续增长。随着时间的推移,逐渐形成了混合云架构。混合云架构如何解决通“网”需求?

    Accesshub
  • 物理Hacking之通过摄影收集情报

    *免责声明:本文提供的工具和方法仅供安全研究用途,禁止非法用途 介绍 在渗透过程中的第一阶段就是尽可能的多收集关于目标的信息。实际上这是进行渗透时最关键的步骤之...

    FB客服

扫码关注云+社区

领取腾讯云代金券