专栏首页数据科学与人工智能【流程】数据科学的处理流程

【流程】数据科学的处理流程

小编邀请您,先思考:

1 您是怎么做数据科学的?

2 您如何理解数据产品?

数据科学家知道把不同的理论和工具有机地结合在一起并最终形成特定的流程,进而依据这个流程完成数据分析工作。

数据科学的整个流程包括这些环节:

  • 数据准备
  • 数据探索
  • 数据表示
  • 数据发现
  • 数据学习
  • 创造数据产品
  • 洞见与结论
  • 结果可视化

数据准备

数据准备虽耗时和无趣,但是至关重要,因为它决定了数据的质量。若是数据的质量得不到保证,后续所有的数据工作都会收到影响。

数据准备包括数据读入和数据清洗。

数据探索

数据探索用来查看数据内容,从数字化和可视化入手,帮助我们找出数据集中的潜在信息并且确定数据分析的大致方向。

数据表示

数据表示是指选择合适数据结构存储数据。这样做有两个作用:

  • 完成从原始数据到数据集的转化
  • 为后续数据分析提供最优的内存消耗

数据发现

数据发现是提出假设,完成验证,从数据集中发现特定的规律和模式的步骤。 数据发现使用不同的统计方法来检验数据之间关联的显著性,通过分析同一数据集中的不同变量或者不同数据集中的交叉信息来得到确信可靠的信息。

数据学习

数据学习主要使用统计方法和机器学习算法来分析数据集。

无论一个工具有多么全能和有效,永远是使用这些分析工具的数据科学家自身的能力使它们发挥作用,才能最终得到有用的结果。 更好地了解这些工具,可以帮助科学家们更理智地选择学习方法与工具,从而得到更好的结果。

创造数据产品

数据产品是一个由数据和算法组合而成的产品。 ——著名数据科学家Hilary Mason

一个数据产品是一个公司开发出来,可以用于销售给其他客户从而赚取回报的东西,这个东西几乎可以涉及方方面面。

数据产品为什么有价值? 因为数据产品给客户提供了非常有用的信息。

如今的数据产品通过高速数据处理,使用最新的算法以及并行计算等方式来获得之前人类无法获得的信息。

一个数据科学家需要挑选出结果中最有价值的相关数据(数据选择),然后把它包装成为最终的用户可以看明白的形式。

一个数据产品其实就好像是一个人人都能随身带在身边的数据分析专家,如果你需要信息的话,可以付很少量的钱来购买一些信息。

如何创造数据产品?

  • 你需要知道你最终的客户是谁?他们的需求是什么?
  • 选择正确的数据和算法
  • 选择合适的数据分析工具
  • 有用信息(洞见)的呈现。(想象力很重要)

洞见与结论

洞见和结论是让分析结果能尽量地被更多的人理解,并且能适用于更多的情况。

结果可视化

结果可视化就是让更多的观看者明白其中信息的意义。 数据探索可视化和结果可视化有很大不同,前者并不知道将会发现什么,因此需要不断尝试;后者对数据处理的目的和数据分析的结论有了深入理解和解读。 结果可视化,让数据讲故事。

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-02-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【应用】大数据世界

    随着互联网云时代的来临,大数据与云计算就像一个硬币的正反两面,势必会影响到社会生活的方方面面,改变我们现有的规则和秩序。伴随着大数据与云计算产业的不断发展,未来...

    陆勤_数据人网
  • 大数据,小数据,哪道才是你的菜?

    美国著名科技历史学家梅尔文?克兰兹伯格(Melvin Kranzberg),曾提出过大名鼎鼎的科技六定律,其中第三条定律是这样的[1]:“技术是总是配“套”而...

    陆勤_数据人网
  • 【统计学习】大数据时代,我为什么说统计学依然是数据分析灵魂

    在数据“爆炸”的时代,大数据常常被寄予厚望。到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?清华大学统计学研究中心前不久成立,著名统...

    陆勤_数据人网
  • 大数据变现的9种商业模式,你走哪条?

    大数据产业具有无污染、生态友好、低投入高附加值特点,对于我国转变过去资源因素型经济增长方式、推进“互联网+”行动计划、实现国家制造业30年发展目标有战略意义。那...

    华章科技
  • 【观点】腾讯的实践表明:最重要的不是大数据,而是……

    当下中国,大数据是个热词。大数据是怎样发挥价值的?关注到腾讯近日发布的大数据报告《95后迷之隐私观大揭秘》,记者走进位于深圳的腾讯总部,走进那些让数据“活”起来...

    小莹莹
  • 【观点】大数据与统计新思维

    译著《大数据时代》( 英国 ViktorMayer-Schǒnberger,Kenneth Cukier 著) 和《驾驭大数据》( 美国 Bill Frank...

    小莹莹
  • 漫画 :戏说大数据 感受数据的力量

    ? 过度使用数据,却可能是在寻找不相关因素之间的相关性。 ? 统计学家给每个人赋予了关于问题的知识。 ? 你听说过“数据让你自由”这个说法嘛?数据总是诚实的,...

    小莹莹
  • 【数据思维】明略数据吴明辉:忘掉你的大数据,数据思维才最重要

    10月11日晚,北京明略软件系统有限公司董事长吴明辉先生结合自身丰厚的实战经验以及车品觉老师书作《决战大数据》就大数据实战应用为庐客汇“12+50”会员带来了一...

    陆勤_数据人网
  • 【数据科学家】养成方案 9步从菜鸟成为数据科学家

    由于数据科学和数据分析是个快速发展的领域,当前的合格申请者严重缺乏。这使得数据科学家对于那些有兴趣,并寻找新的职业生涯的人成为有前途的和有利可图的领域。 ? 漫...

    陆勤_数据人网
  • 张涵诚:大数据驱动企业的创新发展与管理变革

    大数据时代的到来,带给了每一个行业实实在在的冲击和挑战。大数据就像蒸汽时代和电力时代蒸汽和电一样,不仅仅是一次简单的技术和生产力的创新,而是引发了整个生产模式的...

    数据猿

扫码关注云+社区

领取腾讯云代金券