PDFMV框架的D

这是我的第56篇原创文章,关于PDFMV框架。

阅读完本,你可以知道:

1 PDFMV框架的D是什么

PDFMV框架是“问题-数据-特征-模型-价值”英文字母的缩写,是一个闭环的系统,具有持续性迭代优化的功能。

PDFMV框架的D是“Data”的缩写,表示“数据”。关于D的认知,如下图所示:

我们从数据中学习,获得洞见,以创造价值。这个数据,可以是小数据,也可以是大数据;可以是结构化的数据,也可以是非结构化的数据;可以是表格数据,也可以是图像、声音、视频数据;可以是离线数据,也可是在线数据。等等。

PDFMV框架的D环节,我们重点关注三方面的事情:

1 数据加载,获取与业务问题相关的数据集,以开启我们的数据工作。

2 数据探索,识别数据通用问题。

3 数据管理,处理数据中的问题集。

1

数据加载

数据加载,如下图

2

数据探索

数据探索,包括数据汇总和数据可视化。

数据汇总,如下图:

数据可视化,如下图:

3

数据管理

数据管理,主要有数据清洗,数据转换和数据划分。

如下图:

温馨提示:

  • 从不修改原始数据文件,总是在数据的副本上工作。
  • 垃圾输入,垃圾输出,数据质量至关重要。
  • 不同的业务问题有着不同的数据留痕。
  • 为了用好数据,先要理解数据,做好数据画像工作。

关于PDFMV框架的D,您有什么想法请留言。

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-02-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【统计学习】大数据时代,我为什么说统计学依然是数据分析灵魂

    在数据“爆炸”的时代,大数据常常被寄予厚望。到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?清华大学统计学研究中心前不久成立,著名统...

    陆勤_数据人网
  • 【数据思维】明略数据吴明辉:忘掉你的大数据,数据思维才最重要

    10月11日晚,北京明略软件系统有限公司董事长吴明辉先生结合自身丰厚的实战经验以及车品觉老师书作《决战大数据》就大数据实战应用为庐客汇“12+50”会员带来了一...

    陆勤_数据人网
  • 【流程】数据科学的处理流程

    小编邀请您,先思考: 1 您是怎么做数据科学的? 2 您如何理解数据产品? ? 数据科学家知道把不同的理论和工具有机地结合在一起并最终形成特定的流程,进而依据这...

    陆勤_数据人网
  • 未来战争,军事大数据决定主动权

    大数据文摘
  • 刘晨:大数据怎能没有你--数据治理

    大数据文摘
  • 大数据行业洞察:未来2-3年或迎数据时代的真正高潮

    从2012年的“用户标签”到2014年的“用户画像”,从2015年的“大数据”到2017年的“人工智能”,大数据正在从神坛走向现实。“标签”到“画像”,代表着数...

    DT数据侠
  • #后疫情时代的新思考#“数 ”战“数”决将成为各行各业的普遍趋势丨数据猿公益策划

    2020年初,突如其来的新冠疫情打乱了正常的社会节奏,全国上下集体投入到了疫情防控攻坚战之中。

    数据猿
  • 解析丨未来数据质量项目成功的三大支柱

    我们现在处在一个新的时代:商业成功取决于比以前更快的从更多的系统和用户中获取可信任的数据。这个新时代的核心是大数据,它引进了新技术、新数据源、新数据类型,可以让...

    钱塘数据
  • 三大支柱,决定未来数据质量项目成功

    导读:我们现在处在一个新的时代:商业成功取决于比以前更快的从更多的系统和用户中获取可信任的数据。要想在这个时代成功,你必须确保质量数据在更多的系统中传播流畅,...

    钱塘数据
  • 元数据的生死时速

    公司经营分析会提到家庭市场的重要性,我就问负责家庭模型的同事:去年做的家庭结构标签用得怎么样?然后同事给我拉出了下面这张表。

    用户1564362

扫码关注云+社区

领取腾讯云代金券