专栏首页加米谷大数据数据科学家和数据工程师有什么区别?

数据科学家和数据工程师有什么区别?

  本文介绍了什么是数据工程师、什么是数据科学家,以及二者之间的差别以及其不同的工作角色。

什么是数据工程师?

数据工程师负责构建和维护数据科学项目的数据架构,他们必须确保服务器和应用程序之间的数据流是连续的。改进数据基础应用程序,将新的数据管理技术和软件集成到现有系统中,构建数据收集管道及其他各种各样的事情,都属于数据工程师的职责。数据工程中最受欢迎的技能之一是设计和构建数据仓库的能力。

什么是数据科学家?

数据科学从一开始就是一个交叉学科,要求从业者在计算机、数学领域具备一定的技能,同时还要具备在同人与生意打交道的经验。

数据科学家的主要目标是组织和分析大量数据,通常使用专门为此项工作而设计的软件。数据科学家的最终数据分析结果应便于所有投资利益相关者理解,特别是便于那些非IT人员理解。数据科学家专注于前瞻,即做出预测。顺带提一句,数据分析师则更多地聚焦在回顾,如分析历史数据。

数据科学家和数据工程师之间的区别

了解这两种角色之间的区别非常重要。从广义上讲,数据科学家综合使用统计学、数学、机器学习和行业知识来构建模型。他/她必须使用组织支持的相同工具/语言和框架来编码和构建这些模型。

而数据工程师必须构建并维护适用于数据收集、处理和部署数据密集型应用的数据结构和体系架构。构建数据收集和存储管道,将数据汇总给数据科学家,从而将模型投入生产-这些只是数据工程师必须执行的任务中的一部分。

数据工程师通常有着工程背景,与数据科学家不同的是,这个角色不需要太多的学术和科学知识。因此,对构建大规模结构和体系结构的开发人员或工程师非常适合这个角色。

与数据工程相关的不同角色

数据架构师:

数据架构师为数据管理系统收集、整合和维护所有的数据源奠定基础,这个角色需要了解SQL、XML、Hive、Pig、Spark等工具。

数据库管理员:

顾名思义,担任此角色的人需要对数据库有着广泛的了解。职责包括确保数据库对所有需要的用户可用,适当地维护数据库,并且保证在添加新特性时没有任何中断。

数据工程师:

精通以上众多技巧的人。需要掌握数据库工具、Python和Java语言、分布式系统(如Hadoop)等知识,这个角色负责多种组合任务。

本文分享自微信公众号 - 加米谷大数据(DtinoneBD)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-02-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据的三类核心技术

    Flume NG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理;

    加米谷大数据
  • 大数据驱动营销14条营销法则

    “大多数公司的明智决策是数据分析和人类判断平衡后的结果。”以下14条经验法则,可以保证数据透明,有效进行数据驱动营销。

    加米谷大数据
  • 我国大数据发展具有独特优势及政策支持解读

    大数据是信息化发展到一定阶段的产物。随着信息技术和人类生产生活深度融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会进步、...

    加米谷大数据
  • 大数据如何在企业中落地

    经常听到很多大数据的概念和趋势,但是落地而务实的介绍相对较少。笔者根据在互联网和数据领域的实际从业经验,总结出数据价值金字塔在企业运营中的应用模型。该模型对应的...

    CDA数据分析师
  • 大数据如何在企业落地

    经常听到很多大数据的概念和趋势,但是落地而务实的介绍相对较少。笔者根据在互联网和数据领域的实际从业经验,总结出数据价值金字塔在企业运营中的应用模型。该...

    小莹莹
  • 数据科学中的强大思维

    人类擅长在所有的事物中寻找对应的模式。真模式,假模式,命名的模式。我们是那种能在薯片上找到猫王的脸的生物。如果你倾向于将模式与洞察力等同起来,请记住有三种数据模...

    AiTechYun
  • “数据院要跨界、融合,更要“大胆尝试”:访清华大学教育研究院党总支书记刘惠琴

    清华-青岛数据科学研究院(以下简称:数据院)的成立得到了上至原校长陈吉宁,下至各院系老师的支持,这其中也包括研究生院原副院长、现教育研究院党总支书记刘惠琴老师。...

    数据派THU
  • 你的公司是否真的需要大数据战略?

    我们认为,企业应该重视数据统治和数据管理。如果数据是一个企业最重要的资产,然后常规的数据统治项目和数据管理最佳实践是其能够实现的多数投资策略。如果只有其中一种投...

    华章科技
  • 数据分析:数据采集是根基

    数据传输,指的是数据以何种方式流入到存储介质,比如日志是通过logstash还是filebeat采集到kafka的,前端的操作记录是通过http请求发送的

    kk大数据
  • 思考 | 从百度医疗竞价说起,大数据需要科学和正直的品格

    最近几天,一篇“一个死在百度和部门医院之手的年轻人”的新闻刷爆网络,又一次将百度的医疗竞价排名推到了风口浪尖。 大数据是新出现的事物,作为一门深刻洞察社会规律...

    灯塔大数据

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动