【流程】数据科学的处理流程

小编邀请您,先思考:

1 您是怎么做数据科学的?

2 您如何理解数据产品?

数据科学家知道把不同的理论和工具有机地结合在一起并最终形成特定的流程,进而依据这个流程完成数据分析工作。

数据科学的整个流程包括这些环节:

  • 数据准备
  • 数据探索
  • 数据表示
  • 数据发现
  • 数据学习
  • 创造数据产品
  • 洞见与结论
  • 结果可视化

数据准备

数据准备虽耗时和无趣,但是至关重要,因为它决定了数据的质量。若是数据的质量得不到保证,后续所有的数据工作都会收到影响。

数据准备包括数据读入和数据清洗。

数据探索

数据探索用来查看数据内容,从数字化和可视化入手,帮助我们找出数据集中的潜在信息并且确定数据分析的大致方向。

数据表示

数据表示是指选择合适数据结构存储数据。这样做有两个作用:

  • 完成从原始数据到数据集的转化
  • 为后续数据分析提供最优的内存消耗

数据发现

数据发现是提出假设,完成验证,从数据集中发现特定的规律和模式的步骤。 数据发现使用不同的统计方法来检验数据之间关联的显著性,通过分析同一数据集中的不同变量或者不同数据集中的交叉信息来得到确信可靠的信息。

数据学习

数据学习主要使用统计方法和机器学习算法来分析数据集。

无论一个工具有多么全能和有效,永远是使用这些分析工具的数据科学家自身的能力使它们发挥作用,才能最终得到有用的结果。 更好地了解这些工具,可以帮助科学家们更理智地选择学习方法与工具,从而得到更好的结果。

创造数据产品

数据产品是一个由数据和算法组合而成的产品。 ——著名数据科学家Hilary Mason

一个数据产品是一个公司开发出来,可以用于销售给其他客户从而赚取回报的东西,这个东西几乎可以涉及方方面面。

数据产品为什么有价值? 因为数据产品给客户提供了非常有用的信息。

如今的数据产品通过高速数据处理,使用最新的算法以及并行计算等方式来获得之前人类无法获得的信息。

一个数据科学家需要挑选出结果中最有价值的相关数据(数据选择),然后把它包装成为最终的用户可以看明白的形式。

一个数据产品其实就好像是一个人人都能随身带在身边的数据分析专家,如果你需要信息的话,可以付很少量的钱来购买一些信息。

如何创造数据产品?

  • 你需要知道你最终的客户是谁?他们的需求是什么?
  • 选择正确的数据和算法
  • 选择合适的数据分析工具
  • 有用信息(洞见)的呈现。(想象力很重要)

洞见与结论

洞见和结论是让分析结果能尽量地被更多的人理解,并且能适用于更多的情况。

结果可视化

结果可视化就是让更多的观看者明白其中信息的意义。 数据探索可视化和结果可视化有很大不同,前者并不知道将会发现什么,因此需要不断尝试;后者对数据处理的目的和数据分析的结论有了深入理解和解读。 结果可视化,让数据讲故事。

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2018-02-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

Gartner:2016年影响企业发展的十大技术趋势

本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载。

8420
来自专栏华章科技

为什么你的数据分析成果总是难以落地?

为什么你的数据分析成果总是难以落地?数据分析的价值总是远远低于预期?相信看完这篇文章,每个人都能找到一个属于自己的答案。以下为从事电力、军工、金融等行业担任数据...

8220
来自专栏技术与生活

运营是什么——《运营之光》读书笔记

所以,一个真正意义上的“产品运营”,其实是一个综合能力比较均衡,既熟悉各类运营手段,又熟悉产品,甚至能够自己完成一些产品方案的人。

73820
来自专栏Java学习网

如何突破技术发展瓶颈

技术学习的困惑:当达到一个瓶颈时,可以学习的参考系越来越少,首先是因为高端技术人才呈现倒金字塔形态,身边缺少能引领你的人生导师;其次,业内的技术交流,大多数在...

34880
来自专栏镁客网

机器学习被证明可用于重构量子系统,解决量子研究千年难题 | 黑科技

12240
来自专栏大数据挖掘DT机器学习

基于大数据的O2O电商用户数据挖掘研究

Online-to-Offline( 简称 O2O)电子商务模式,是一个连接线上用户和线下商家的多边平台商业模式。O2O商业模式将实体经济与线上...

46540
来自专栏TAPD

首度揭秘:腾讯敏捷研发和极速交付破局之道

 导读  腾讯到底是怎么进行敏捷研发和极速产品交付的呢? 腾讯研发管理部高级产品经理、敏捷教练张贺,受邀在DevOpsDays深圳站中进行了相关分享。 他从“...

16840
来自专栏灯塔大数据

大数据帮你躲避“恐怖袭击”

随着越来越多的安全漏洞和网络欺诈事故充斥着国际新闻头条,各大企业也在积极寻找解决这种高级持久威胁、诈骗和内部攻击的方法。 ? 传统的网络安全技术,缺乏发现和规...

31250
来自专栏腾讯大讲堂的专栏

产品工作思路和方法:数据篇

不知不觉产品工作已有多年,从客户端产品设计,到偏后台的策略服务产品,再到数据产品,有一些心得体会,总结出来做个分享,亦是对产品工作方法和思路的讨论。根据以往工作...

33270
来自专栏AI研习社

对创业公司的忠告:这么玩数据才不会死

编者注:本文作者 Matthew Coffman,是专注于企业云的风投基金 High Alpha 产品经理。他具有丰富的大数据行业经验,也参与和见证了许多数据公...

33560

扫码关注云+社区

领取腾讯云代金券