前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【流程】数据科学的处理流程

【流程】数据科学的处理流程

作者头像
陆勤_数据人网
发布2018-02-28 15:31:57
1.4K0
发布2018-02-28 15:31:57
举报
文章被收录于专栏:数据科学与人工智能

小编邀请您,先思考:

1 您是怎么做数据科学的?

2 您如何理解数据产品?

数据科学家知道把不同的理论和工具有机地结合在一起并最终形成特定的流程,进而依据这个流程完成数据分析工作。

数据科学的整个流程包括这些环节:

  • 数据准备
  • 数据探索
  • 数据表示
  • 数据发现
  • 数据学习
  • 创造数据产品
  • 洞见与结论
  • 结果可视化

数据准备

数据准备虽耗时和无趣,但是至关重要,因为它决定了数据的质量。若是数据的质量得不到保证,后续所有的数据工作都会收到影响。

数据准备包括数据读入和数据清洗。

数据探索

数据探索用来查看数据内容,从数字化和可视化入手,帮助我们找出数据集中的潜在信息并且确定数据分析的大致方向。

数据表示

数据表示是指选择合适数据结构存储数据。这样做有两个作用:

  • 完成从原始数据到数据集的转化
  • 为后续数据分析提供最优的内存消耗

数据发现

数据发现是提出假设,完成验证,从数据集中发现特定的规律和模式的步骤。 数据发现使用不同的统计方法来检验数据之间关联的显著性,通过分析同一数据集中的不同变量或者不同数据集中的交叉信息来得到确信可靠的信息。

数据学习

数据学习主要使用统计方法和机器学习算法来分析数据集。

无论一个工具有多么全能和有效,永远是使用这些分析工具的数据科学家自身的能力使它们发挥作用,才能最终得到有用的结果。 更好地了解这些工具,可以帮助科学家们更理智地选择学习方法与工具,从而得到更好的结果。

创造数据产品

数据产品是一个由数据和算法组合而成的产品。 ——著名数据科学家Hilary Mason

一个数据产品是一个公司开发出来,可以用于销售给其他客户从而赚取回报的东西,这个东西几乎可以涉及方方面面。

数据产品为什么有价值? 因为数据产品给客户提供了非常有用的信息。

如今的数据产品通过高速数据处理,使用最新的算法以及并行计算等方式来获得之前人类无法获得的信息。

一个数据科学家需要挑选出结果中最有价值的相关数据(数据选择),然后把它包装成为最终的用户可以看明白的形式。

一个数据产品其实就好像是一个人人都能随身带在身边的数据分析专家,如果你需要信息的话,可以付很少量的钱来购买一些信息。

如何创造数据产品?

  • 你需要知道你最终的客户是谁?他们的需求是什么?
  • 选择正确的数据和算法
  • 选择合适的数据分析工具
  • 有用信息(洞见)的呈现。(想象力很重要)

洞见与结论

洞见和结论是让分析结果能尽量地被更多的人理解,并且能适用于更多的情况。

结果可视化

结果可视化就是让更多的观看者明白其中信息的意义。 数据探索可视化和结果可视化有很大不同,前者并不知道将会发现什么,因此需要不断尝试;后者对数据处理的目的和数据分析的结论有了深入理解和解读。 结果可视化,让数据讲故事。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学与人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据准备
  • 数据探索
  • 数据表示
  • 数据发现
  • 数据学习
  • 创造数据产品
  • 洞见与结论
  • 结果可视化
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档