专栏首页PPV课数据科学社区【聚焦】大数据建模的几大定律

【聚焦】大数据建模的几大定律

大数据建模是一个数据挖掘的过程,就是从数据之中发现问题,解释这些问题,建立相应的数据模型,可以通过预测创造新的决策参考,对于数据建模有不同的平台以及不同的工具,这个过程中也是有相应的标准,可以大大提高大数据建模的成功率。

以业务目标作为实现目标

大数据建模不只是一个技术,而是一个为了解决业务流程的问题的过程,如果没有目标或者说不是以解决业务方面的问题作为目标,那么就没有大数据建模。

了解业务知识

从大数据建模开始到结束,并且要基于了解业务知识的商业理解的基础上,知道这些相关的数据与业务问题有什么的关系,是怎么相关起来的,到最后的塑造阶段,也是要利用业务知识来进行模型塑造,建立起来的大数据模型要通过业务问题的提问和解答。

做好数据预处理

做大数据建模,不仅仅是建模这一个动作,整个过程的多个环节都是很重要的,在大数据建模的过程中,找到合适的数据源才是重点,对于数据源进行预处理则是难点,数据预处理是困难,虽然说现在已经有很多的自动化的数据处理工具可以被使用,但是这些分析工具以及各种分析方法也是通过了很长的一段探索时间。做大数据建模的时候,在数据预处理阶段不能着急,要找到合适数据预处理的分析方法。

注重数据原有的模式

在进行大数据建模的时候注重一些数据原有的模式,例如在进行客户购买行为分析过程中,可客户之后的购买预测可能和之前的购买行为有关系,当然这个过程和操作者的经验有很大的相关性,特别是在了解一开始的业务知识之后,可能对于这种原有的模式会有更好的理解。

大数据建模的价值不在于预测的准确率

一个模型建立起来了,很多人会依照这个模型进行各种预测,如果预测的准确,就说明模型是好的模型,是有价值的,实际上这个不能作为判断价值的标准,一个好的大数据模型是为了改变企业的行为以及以预测的结果来改善企业的行为,传递新的知识和见解,以及会不会适应业务的发展的需要才是它的衡量尺标

PPV课其他精彩文章:


1、回复“干货”查看干货 数据分析师完整知识结构

2、回复“答案”查看大数据Hadoop面试笔试题及答案

3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝

4、回复“可视化”查看数据可视化专题-数据可视化案例与工具

5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限

6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布

7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载

8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

9、回复“每日一课”查看【每日一课】手机在线视频集锦

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-05-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 终于找全了:蝴蝶效应、青蛙现象、鳄鱼法则、鲇鱼效应、羊群效应、刺猬法则、手表定律、破窗理论、二八定律、木桶理论

    1、蝴蝶效应: 上个世纪70年代,美国一个名叫洛伦兹的气象学家在解释空气系统理论时说,亚马逊雨林一只蝴蝶翅膀偶尔振动,也许两周后就会引起美国得克萨斯州的一场龙卷...

    小莹莹
  • R语言在数据科学中的应用

    功能介绍 大数据时代,我们需要一个强大的软件Runing!!!R语言出现了!!!这里是R语言最好的学习交流平台,包括R语言书籍,R语言课程,R语言程序包使用,教...

    小莹莹
  • 【24页PPT】赛智时代总经理赵刚:中国数据加工清洗产业趋势分析

    2015贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会5月26-29日在贵阳举行,数据观对该活动进行全程图文直播。5月27日,在“数据商品化发展”分论坛上,赛...

    小莹莹
  • R语言在数据科学中的应用

    功能介绍 大数据时代,我们需要一个强大的软件Runing!!!R语言出现了!!!这里是R语言最好的学习交流平台,包括R语言书籍,R语言课程,R语言程序包使用,教...

    小莹莹
  • 到底该用什么软件来展示数据?(数据可视化-PPT)

    在大数据时代,我们身边充斥着各类信息,各种数据,人们的时间被打碎,注意力被分散,更多的人喜欢看图片而非文字,喜欢看图表而非数据。我们做数据展示时常用什么软件呢?...

    小莹莹
  • 【24页PPT】赛智时代总经理赵刚:中国数据加工清洗产业趋势分析

    2015贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会5月26-29日在贵阳举行,数据观对该活动进行全程图文直播。5月27日,在“数据商品化发展”分论坛上,赛...

    小莹莹
  • 《破风》大数据

    《破风》非常燃,看完之后就想骑着单车冲上公路。这部影片中出现了大量有趣的数据,下面我们就逐个数理一下: 1、到底有多快 公路赛一般时速超过50公里,最快时速可以...

    小莹莹
  • 数学建模竞赛(国赛和美赛)经验分享

    第一次参赛是在大一的暑假参加的国赛,当时和两个同学刚刚组队,我们也没有什么基础,结果可想而知:无奖。 在经历了这一次国赛之后,大一时的两位队友也无心再参加,所以...

    code随笔
  • [脑书笔记]《整体性学习》4-知识拓展应用技术

    这篇脑书继续讲整体性学习的第二部分整体性学习的技术,在《整体性学习》1里面在谈到信息进入大脑的顺序是,获取,理解,拓展,纠错和应用。这篇脑书笔记主要针对这5个步...

    rocket
  • pca

    混乱的数据中通常包含三种成分:噪音、旋转和冗余。在区分噪音的时候,可以使用信噪比或者方差来衡量,方差大的是主要信号或者主要分量;方差较小的则认为是噪音或者次要分...

    pydata

扫码关注云+社区

领取腾讯云代金券