前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据开发的工作内容与流程

大数据开发的工作内容与流程

作者头像
十里桃花舞丶
发布2023-10-16 14:08:47
2780
发布2023-10-16 14:08:47
举报
文章被收录于专栏:桥路_大数据
大数据开发的工作内容与流程

离线数据仓库开发

我们之后在做开发的时候,可能是选择某几个组件来使用。比如做数仓开发,可能就是用sqoop把数据抽到hdfs里,用spark或者mapreduce对这部分数据做一个清洗。

清洗的结果,一般会放到Hive里面。一般开源场景中,Hive是做数仓选型比较多的一个组件,或者放到Spark生态圈的spark sql中。

那之后的话,在hive或者spark sql中可以直接写Sql,来完成对数据的处理即可。

当然的话中间这些个任务的调度,我们可能会选用oozie或者azkaban等任务流调度引擎来完成。

这是数仓的基本架构流程。

实时流处理开发

对于流处理来说的话,可以用flume或者logstach去监控一些非结构化、半结构化数据;像用cdc、ogg这样的一个技术,会监控数据库的日志。这样的话,非结构化、半结构化、结构化数据都可以进行实时采集,把这些个数据实时地抽取到kafka里面进行一个缓存。

然后由流(处理)引擎,比如说spark生态圈的spark streaming,当然还有比较新的像flink这些产品进行一个实时处理。大家可能在这里编写流处理任务会比较多。

数据进行处理以后,可以把这个结果保存到hbase里面,或者存储到elasticsearch里面。

因为这两个的话,它对于小文件来说不是那么敏感。hbase的话,它底层有一个处理小文件的机制;而elasticsearch,它本身文件就不存在hdfs里,它文件直接存在磁盘本地,所以的话它对小文件更不敏感。

因为实时产生的结果,会生成较多小文件,这里是在选型的时候需要注意的。

所以的话流处理一般是用这几个组件比较多。

当然很多时候,在生产中的选型比较复杂,而且会有MPP与大数据产品一起使用的场景,但整体的流程不变,只是各阶段的产品有所替换。后续也会为大家对比分析各主流选型的使用场景与工作流程。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-10-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 大数据开发的工作内容与流程
  • 离线数据仓库开发
  • 实时流处理开发
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档