前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一个实操案例带你了解数据开发岗位

一个实操案例带你了解数据开发岗位

作者头像
CDA数据分析师
发布2022-04-15 13:56:58
4520
发布2022-04-15 13:56:58
举报
文章被收录于专栏:CDA数据分析师CDA数据分析师

CDA数据分析师 出品

编辑:JYD

大家好,我是曹鑫老师,今天主要为大家讲解的是数据开发岗位。下面演示一个实际案例,帮助大家更好的了解这类岗位。

数据开发主要的内容包括编写数据加工处理程序,数据模型的设计与开发,下面我们通过简单的例子为您展示数据开发岗位的工作内容。

现有业务需求:假设有用户的评论数据,现需要统计评论中各个单词的频次,通过高频词汇挖掘用户的舆情、关注点是什么。由于数据量很大需要使用Hadoop的分布式文件系统(HDFS)存储数据、使用MapReduce分布式计算框架或Spark加工处理数据。

评论数据如下:

根据MapReduce分布式计算框架的使用要求,分别开发Map、Reduce代码:mapper.py

reducer.py

提交代码,这里我们编写一个简单的shell脚本,脚本内容如下:

运行结束,得到结果:

总结:数据量比较小的时候并不能体现出分布式计算的性能优势,但是实际业务中数据量一般都很大,所以使用大数据平台很必要。这只是数据开发各类场景中的一个很小的例子,优秀的数据开发应具备:

  • 至少需掌握一种编程语言,
  • 熟练使用SQL、
  • 熟悉Linux命令,
  • 会使用大数据平台
  • 熟悉数据模型设计方法(3NF、维度建模等)

这就是数据开发岗位日常工作的一个案例。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-03-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CDA数据分析师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档