前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI时代就业指南:大数据工程师到底应该会什么?

AI时代就业指南:大数据工程师到底应该会什么?

作者头像
小莹莹
发布2018-04-18 16:17:32
6700
发布2018-04-18 16:17:32
举报

大数据领域包含哪些职位?

在大数据行业中有很多领域。通常来说它们可以被分为两类:

  • 大数据工程
  • 大数据分析

这两个领域互相独立又互相关联。

数据工程涉及平台和数据库的开发、部署和维护。大数据工程师需要去设计和部署这样一个系统,使相关数据能面向不同的消费者及内部应用。对应的职位是大数据开发工程师、ETL工程师、算法工程师。对应技能为下图中粉色圈。

数据分析则是利用数据平台提供的数据进行知识提取。数据分析包括趋势、图样分析以及开发不同的分类、预测预报系统。对应的职位是数据分析师、数据挖掘工程师和数据科学家。对应的技能为下图中绿色圈。

根据领域规划你的角色?

通常来说,基于你的教育背景和行业经验我们可以进行如下分类:

  • 教育背景:如计算机科学、数学等
  • 行业经验:新人、业务专家、计算机工程师等

如果你擅长编程技巧并理解计算机如何在网络上运作,而你对数学和统计学没有太大兴趣,在这种情况下,你应该朝着数据工程方向职位努力。

如果你擅长编程同时有数学或者统计学的教育背景或兴趣,你应该朝着数据分析师职位努力。

如何成为一名大数据工程师?

首先让我们先了解下大数据工程的日常工作,通常包括两个方面 – 数据需求以及处理需求。

数据需求

结构:你应该知道数据可以储存在表中或者文件中。储存在一个预定义的数据模型(即拥有架构)中的数据称为结构化数据。如果数据储存在文件中且没有预定义模型,则称为非结构化数据。(种类:结构化/非结构化)。

容量:数据的数量。(种类:S/M/L/XL/XXL/流)

Sink吞吐量:系统所能接受的数据速度。(种类:H/M/L)

源吞吐量:数据更新和转化进入系统的速度。(种类:H/M/L)

处理需求

查询时间:系统查询所需时间。(种类:长/中/短)

处理时间:处理数据所需时间。(种类:长/中/短)

精度:数据处理的精确度。(种类:准确/大约)

下面,我们举个例子说明上述工作内容:

情景

为分析一个公司的销售表现需要设计一个系统,为此你需要创建一个数据池,数据池来自于多重数据源,比如客户数据、领导数据、客服中心数据、销售数据、产品数据、博客等。

设计目标:

1. 通过整合各种来源的数据创建一个数据池。

2. 每隔一定时间自动更新数据(在这个案例中可能是一周一次)。

3. 可用于分析的数据(在记录时间内,甚至可能是每天)

4. 易得的架构和无缝部署的分析控制面板。

数据要求:

结构:大部分数据是结构化的,并具有一个定义了的数据模型。但数据源如网络日志,客户互动/呼叫中心数据,销售目录中的图像数据,产品广告数据等是非结构化的。 图像和多媒体广告数据的可用性和要求可能取决于各个公司。

结论:结构化和非结构化数据

大小:L或XL(选择Hadoop)

Sink 吞吐量:高

质量:中等(Hadoop&Kafka)

完整性:不完整

处理要求:

查询时间:中至长

处理时间:中至短

精度:准确

随着多个数据源的集成,要注意不同的数据将以不同的速率进入系统。

例如,网络日志可用高颗粒度连续流进入系统。

基于上述我们对系统要求的分析,我们可以设计的大数据系统如下:

那么,如果要完成上面这样一个系统,需要掌握的主要技能有哪些呢,为此我们给出一个通用的学习路径,希望对你有用。

大数据工程师学习路径

  1. Bash脚本编程:要对linux和bash 脚本编程非常熟悉,这是处理大数据的基本要求。
  2. 通用编程语言:大部分大数据技术都是用Java或Scala编写的。如果你有Java的基础,可以继续使用它。但如果你是一个新手,可以选择Python,很多新的技术都支持python。
  3. 云环境:一个大数据工程师必须适应在云端环境下部署和开发。尝试在AWS,softlayer或任何其他云端供应商上练习小型数据集。
  4. 分布式文件系统:你需要了解一个分布式文件系统。最流行的分布式文件系统就是Hadoop分布式文件系。你还可以学一点Nosql技术。
  5. Mapreuce系统:如果你要处理的数据是静止的大量数据,学习Pig或Hive其中之一就足够了。
  6. 实时流系统:如果你使用数据流来开发实时或近实时分析系统,那么要可以选择Spark或者Storm系统,你需要掌握Kafka开发工具。
  7. 机器学习:最后,如果你想往数据科学家方向发展,你需要学习一点机器学习的算法,如神经网络和深度学习。

End

参考阅读: 大数据的发展,伴随的将是软件工程师的渐退,算法工程师的崛起 如何区分理解数据科学家与机器学习工程师 技术丨从Hadoop到Spark,看大数据框架发展之路

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档