《大数据导论》读书笔记——Chapter 1

去年买的书,从通信转到大数据行业,其实一直挺心虚的,特别想要踏踏实实把它读下来,补补基础。觉得国内的各种译本可能会不那么准确的传递一些信息,毕竟不同语言之间对应的精准程度有限,就心血来潮下单了这本英文版,书架上搁置了将近三个月,感谢搬家的师傅帮我把它从院里的小白楼搬到了院外的写字楼,终于有想要看看它的冲动了。看了几页便有醍醐灌顶酣畅淋漓的感觉,忍不住要整理出读书笔记,一章一章发布在这里,算是一种对自己的督促(暂时还不确信我能不能坚持看完),也算是一种分享吧,希望得到师长和朋友们更多的指正与批评,有时候批评这种东西也是千金难求的,在此深深谢过。

第一章主要是理清一些概念和术语。

1. Data Analysis vs. Data Analytics:

书中原文:

Data analytics is a broader term that encompasses data analysis.按原文理解,后者是比前者更加宽泛的概念,到网上查了一下相关的说明,得出这样的解释:

(http://www.linkedin.com/pulse/data-analysis-vs-analytics-matthew-rosendin)

从字面上看,前者是后者的一部分,前者是一种技能,后者是一项游戏,而这项游戏包括数学、统计与计算等相关活动。

用中华文化来理解,analysis是术,analytics是道,analysis是方法,analytics是方法论。

2. Four General Categories of Data Analytics

很喜欢书中的这张图,清晰,简洁。继续用中华文化来理解,左边那个箭头Value表示由下往上,就可以尝试从“事后诸葛亮”变成“事前诸葛亮”,同样的右边那个箭头,表示想要变成“事前诸葛亮”需要付出越来越大的复杂性作为代价。

1)Descriptive Analysis:(描述性分析)

用于回答已经发生的事件相关的问题,通常用reports或dashboard的方式。

2)Diagnostic Analysis:(诊断性分析)

用于分析已经发生的事件背后的原因,个人理解,Descriptive Analysis更加关注过去的信息的总览或概述,是一个general的过程,当然其中也有相关细节,但目的性不是很强。Diagnostic Analysis更加关注问题与现象,是一个particular的过程,偏重于寻找事件或现象出现的原因,目的性较强,通常用drill-down或者roll-up的方式。

3)Predictive Analytics:(预测性分析)

用于尝试确定未来可能发生的某一事件的结果。需要model的支撑,而在使用model时,要重点关注建立这个model的前提条件,当前提条件变化时,模型需要be updated。原文指出Predictive Analytics需要比Descriptive Analysis和Diagnostic Analysis更加先进的skillset,专门查了这个词,它好像不仅仅是指a set of skills,还有某方面的特指,即是“以结果为导向”发现并解决问题,基本属于“逆向”的或者说“自上而下”式的思维。也就是说这个Predictive Analytics的目的性也很强,是以结果为导向。同时,原文指出Predictive Analytics要提供用户友好的终端接口,个人理解这种描述更加简单粗暴的表达了“以结果为导向”的“目的性”。

4)Prescriptive Analytics:(规范性分析)

原文指出,它是建立在Predictive Analytics的结果上的,用于规范应该采取的行动,不仅仅关注应该采取哪种规范的手段,也关注为何如此。这同样是一种目的性较强的分析方法,用于增强优势或减少风险。这四种方法中,Prescriptive Analytics需要最强的skillset,这里提到skillset包括专业的software或tools。这种分析有explanatory转到advisory,并包括多种场景的模拟。

3. Business Intelligence(BI):

原文:BI enables an organization to gain insight into the performance of an enterprise by analyzing data generated by its business processes and information systems.这个目的性更强了,打个比方,BI是做饭,上面的那些分析方法就是煎炒烹炸,用户是顾客,分析员是厨师,为什么说目的性强?因为顾客想品尝美味。(吃货只能想到这些,供你们批评)

结合自己仅有的一些可视化知识的皮毛,现在市面上很多工具(此处屏蔽广告若干),都是一种敏捷BI,传统的BI是一个较为庞大的系统,敏捷BI更加以结果为导向,简单粗暴直接得出顾客想吃的东西。

4.关于那些个“V”

跟微博里的大“V”一样,不刷过几个他们的主页,就不能说玩儿过微博。这几个“V”也是大“V”,不知道它们就不能说了解大数据。不一一描述了,这里看到一处:说其中的Veracity是后来专门针对较低信噪比的非结构化数据增加的。(总算出来一个通信专业里熟悉的名词"信噪比",小编好亲切的感脚,看见了亲人都是眼泪)

后记:

写完这篇文章,感觉自己总算在这个公众号里又干了一件正经事(算上之前那篇一共两件),同时,也感觉自己这个公众号的风格越来越飘忽不定了,小蜜蜂还画不画了?画,当然要画,因为:“不为无益之事,何以潜有涯之生”。

END

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180124G0QMI000?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券