首页
学习
活动
专区
工具
TVP
发布

黑泽君的专栏

专栏作者
708
文章
1682027
阅读量
102
订阅数
大数据技术之_27_电商平台数据分析项目_01_大数据的框架回顾 + 大数据的企业应用
Hadoop job 提交简图 或 YARN 架构 或 YARN 工作机制 或 job 提交流程 0、job 提交简图
黑泽君
2019-05-30
1K0
大数据技术之_18_大数据离线平台_05_离线平台项目模块小结
1、将项目软件工具包导入 2、项目思路: 2.1、读取 HDFS 数据进行 ETL 清洗操作,并将最终结果写入到 HBase 中。 2.2、从 HBase 中读取数据,进行新增用户统计分析操作,并将结果写入到 Mysql。 3、细节实现 数据清洗: 3.1、LoggerUtil.java 3.1.1、主要作用:将字符串数据解析成 HashMap 键值对集合。 3.1.2、重要细节: 字符串的截取 不合法数据的过滤 字符串的解码(就是将%相关的字符串编码转换成可读类型的数据) 错误数据的 Logger
黑泽君
2019-05-07
5720
大数据项目之_15_电信客服分析平台_03&04_数据分析
  我们的数据已经完整的采集到了 HBase 集群中,这次我们需要对采集到的数据进行分析,统计出我们想要的结果。注意,在分析的过程中,我们不一定会采取一个业务指标对应一个 mapreduce-job 的方式,如果情景允许,我们会采取一个 mapreduce 分析多个业务指标的方式来进行任务。具体何时采用哪种方式,我们后续会详细探讨。
黑泽君
2019-03-22
8710
大数据技术之_12_Sqoop学习_Sqoop 简介+Sqoop 原理+Sqoop 安装+Sqoop 的简单使用案例+Sqoop 一些常用命令及参数
  Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。   Sqoop 项目开始于 2009 年,最早是作为 Hadoop 的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop 独立成为一个 Apache 顶级项目。   Sqoop2 的最新版本是 1.99.7。请注意,2 与 1 不兼容,且特征不完整,它并不打算用于生产部署。
黑泽君
2019-03-15
2.4K0
HBase 默认刷写文件 flush_compact.xml 注释解析
flush_compact.xml <!-- 一个store里面允许存的hfile的个数,超过这个个数会被写到新的一个hfile里面 也即是每个region的每个列族对应的memstore在fulsh为hfile的时候,默认情况下当超过3个hfile的时候就会 对这些文件进行合并重写为一个新文件,设置个数越大可以减少触发合并的时间,但是每次合并的时间就会越长 --> <property> <name>hbase.hstore.compaction
黑泽君
2019-03-15
5700
大数据技术之_11_HBase学习_02_HBase API 操作 + HBase 与 Hive 集成 + HBase 优化
注意:truncate,清空表数据,实际底层操作是先使表不可用(下线),然后删除表,最后根据表信息重新创建一张新表。
黑泽君
2019-03-15
1.8K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档