专栏首页数据社一个数据人的思考

一个数据人的思考

一、背景

最近领导和团队沟通,想提高数据建模团队的能力。结合自己工作的经验和朋友的交流,来总结下如何去做。

二、我做过什么

很多大数据数据仓库人员都是从事过传统BI业务或者数据库业务的。传统BI一般都是Oracle存储过程,O是真的?牛,很多银行和电力业务目前还是存储过程写的业务代码。自己曾经亲身经历过,两千行的业务package,写起来和改起来特别有“成就感”!后来听说了Hadoop,网上自己自己找资料,Win环境搭建了起来,现在去百度还能搜到那篇文章。后来再也不推荐别人去碰Win搭建Hadoop!

后来机遇,进了大数据行业,参与主导了一些大数据从无到有的建设过程。真的很感谢那段晚上十点后回家的岁月,还有工作中的伙伴,这段工作算是自己的一个能力的很大提升。从没有接触过Linux到写过近1000行的数据处理脚本,现在公司应该还在用吧。接触运维了百亿级别数据聚合秒出的Vertica (商业软件真好用),建了一个100多人的技术交流群,虽然不活跃,但确实帮到很多人。(还专门申请了一个Vertica的域名,部署了自己博客 http://vertica.club/ ,又该续费了……)

了解了zeppelin,参与了早期的一些功能建议和验证,虽然后来工作中没用到,自己也没有再跟社区,但这个工具真好用,这是专门给数据人的工具,非常好,可以写出很漂亮的数据报告。(下面找我名字吧…

)

三、数据人应该做什么

还是说说我熟悉的数据仓库建设。个人认为数据人员可以走两个大方向提升自己(当然数仓理论知识必须得掌握),一、精通业务,熟练SQL,加强工程能力。记住工程能力很重要!二、了解算法,掌握PYTHON,熟练做分析。我是那种什么都想做的人……

1)、精通业务,就要做到业务指标的标准由你说了算,努力成为业务专家,参与一些重要指标的定义。比如去看公司的Wiki,通过在公司熟悉的同事找到业务架构负责人,了解相关资料。

2)、熟练SQL,并不仅仅是熟练写。要做到了解SQL的执行计划,掌握执行数据库环境的调优。当然很多人会说这是DBA做的工作,但是数据人应该比DBA写的SQL多吧,当你发现你写的一段逻辑能从1个小时优化到5分钟,你就会发现这是多有成就感。掌握数据库,要从数据库的存储架构出发,掌握数据库的简单管理,熟练应用场景。最终你掌握几种数据库使用后,你会发现你能够帮助公司或部门做数据库选型了。

算法这个笔者自己现在还没真正入门,学习中……,欢迎大神带进门!

四、如何做

1),既然是做大数据的数据仓库,对大数据各个组件要有了解,对大数据整个处理架构要有了解,从数据采集,到处理,再到数据展示,数据运营等,都需要了解。推荐一本书《大数据之路》,很感谢上家公司选购了这本书,给员工看。

2),SQL 熟能生巧,其实可以尝试用SQL写一些小工具,记得自己15年的时候闲暇写了一个身份证解析的包,大家用着很不错。附上代码 :https://blog.csdn.net/windyqcf/article/details/46048657

3),养成笔记的习惯,记得刚开始接触Vertica数据库的时候,自己上网百度,很少有资料,没办法,只能自己看英文版的官方文档,在自己的环境和工作中尝试总结,形成博客,慢慢发现自己积累了很多。很多数据人通过博客认知了自己,于是有了这个数据群。(也可留言加申请加入)

4),提升工程能力

工程能力是在团队中将项目做好的能力,就像敏捷,按照移动的流程,规范完成项目的初版,慢慢迭代。领导交给你一个项目是希望你们把他做好,不是去关心你使用的技术,把项目做好其实就是你的工程能力的体现。可以从了解架构(上面说的大数据架构等),规范(数仓开发规范等),管理(上线、测试流程等)。减少做重复的工作,重复工作自动化。也是工程能力的体现,去学习Python 和shell吧,会对你有很大帮助!

5),提升trouble shooting能力

做数据最大的好处就是你看到一个页面异常问题,基本可以判断哪里出问题了,或者你知道怎么排查问题了。比如自己曾经经历的上线晚上,页面出现了问题,看开发人员努力找问题的时候,忍不住来句“让我来!”,做数据的人很快能知道问题在哪。发现一个任务执行很慢,会忍不住去优化。努力提升trouble shooting能力,对你以后团队管理会很有帮助。

五,总结

上面属于个人理解,我只做过后端数据,前端完全没做过。java项目,毕业早期还做过一点,后来基本没做过,但是我知道项目是怎么跑起来的,页面出现了问题如何去查等。所以我只是一个从传统BI转到大数据数仓的数据人。见解可能会很片面,仅供大家参考,另外欢迎大神留言指正!

本文分享自微信公众号 - 数据社(DataClub),作者:windyqin

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何设计数据中台

    横向规划即在数据中台规划初期,需要打通企业各个业务系,打破数据孤岛现象。其实就是我们建设数据仓库的阶段。比如电信业务,我们要把客户、账务、客服、营销等业务板块打...

    数据社
  • 一文了解数据湖引擎

    数据湖引擎是一种开源软件解决方案或云服务,它通过一组统一的api和数据模型为分析工作负载的各种数据源提供关键功能。数据湖引擎解决了快捷访问、加速分析处理、保护和...

    数据社
  • 数据中台设计方法论

    横向规划即在数据中台规划初期,需要打通企业各个业务系,打破数据孤岛现象。其实就是我们建设数据仓库的阶段。比如电信业务,我们要把客户、账务、客服、营销等业务板块打...

    数据社
  • 数据迁移的几种方式 - MySQL数据库

    开始和数据库玩耍以后,我们将一直与SQL和数据打交道。在日常的操作中,我们只需要对指定的数据库进行操作,执行增删改查,权限管理等。但有些时候由于项目的升级,或...

    一头小山猪
  • 75个每个人都应该知道的大数据术语

    在第一篇文章中介绍了以下术语:算法,分析,描述性分析,规定分析,预测分析,批处理,Cassandra,云计算,集群计算,黑暗数据,数据湖,数据挖掘,数据科学家,...

    首席架构师智库
  • Mysql两千万数据优化及迁移

    最近有一张2000W条记录的数据表需要优化和迁移。2000W数据对于MySQL来说很尴尬,因为合理的创建索引速度还是挺快的,再怎么优化速度也得不到多大提升。

    用户5224393
  • 数据库系统概述

    数据是数据库中存储的基本对象。描述事物的符号记录称为数据。数据是有结构的,记录是计算机中表示和存储数据的一种格式或一种方法。

    爱学习的孙小白
  • 这座挡在AI面前的大山能被翻越吗?

    1956年,人工智能开始被提起,上世纪70年代再次成为焦点关注,如今这波AI爆发行情已经是第三次了,为什么人工智能多次起伏,而今天再看却被多方看好呢? ? 计算...

    企鹅号小编
  • 生命科学中的大数据

    大数据文摘
  • R语言:用R语言填补缺失的数据

    如果缺失数据的量相对于数据集的大小非常小,那么为了不偏离分析而忽略缺少特征的少数样本可能是最好的策略,但是留下可用的数据点会剥夺某些数据的特征。

    拓端

扫码关注云+社区

领取腾讯云代金券