00:01
哈喽,大家可以看到我的。PPT吗?可以,OKOKOK啊,声音还清楚哈。很清楚啊,好的好的好的啊。那,那我们就先开始呗。还是还是再等一下,还是先开始。我觉得可以开始了哈,不守时就要错过好东西嘛,是吧?也确实哈,周五嘛,周五确实是这个。难得大家都过来捧宋老师的场啊。好,那我们就先开始呗,这个还是先自我介绍啊,呃,我是腾讯云架构师的宋丽环啊,由于疫情,我们是以线上的方式开课。
01:03
时髦时髦的话说就是以这个原宇宙的方式跟大家见面,大家看一下这个右下角的照片啊。左边这张图是我的本尊啊,右边这张图是我的在元宇宙里的这个2D卡通分身。那讲这个主题之前呢,首先先给各位做一个呃简单的介绍啊,我的工作经历很简单啊,就三段国企。然后外企微软,还有就是互联网的这个大厂啊,腾讯啊。我呢个人爱好呢,比较喜欢读书。国学茶道啊,这个除了交流技术之外。大家跟我还可以去交流一下国学啊,茶道啊,那我自己呢,写了几本书。呃,大家看到啊,有这个MYSQL的性能优化和高可用架构实践啊。
02:04
还有2本书,还有2本书是我来腾讯之前写的。还有一个是cloud迪拉哈杜op大数据平台实战指南,还有一个人人都是数据分析师Paul尔BI啊,写书确实时间。很辛苦的事情啊,要花自己的业余时间啊,但是我自己呢,对于数据很感兴趣啊,你看我写的书都是跟数据有关啊,我想把自己的研究心得跟大家分享。那在今今天开始演讲的这个主题之前啊,我想抛出个问题。如何查找到新冠肺炎密切接触者?这个密切接触者呢?跟患者又不认识。没有关系。在过去很难找到他们。但现在为什么能找到呢?我们是处于大数据的时代呀。
03:02
所有人的行为都会在互联网、移动互联网上做数据留痕。这就为我们能够及时快速的找到他们提供可能性。啊,因为每一个确诊的患者同时也是个手机的用户。移动运营商,包括移动、电信、联通,还有百度地图、高德地图都掌握的用户的这个出行轨迹的数据。啊,用户什么时候去哪里。啊,从哪里又到哪里,这些轨迹数据都是可以掌握的。如果更要进一步的缩小范围,可以加一个新的条件,就是我们的移动支付的数据。因为移动支付数据包含的时间、地点。并且可以比较跟其他数据。位置的。远近啊,其他用户的位置的远近。所以有句话叫做未来需要的不是石油,它的最大的能源是数据。
04:04
凭智商做判断,这已经过时了,未来拼的是大数据。所以。今天我跟各位来聊聊这个话题,大数据的前世今生。那那何为大数据呢?啊,一般认为这个大数据,我们讲的大数据的定义都叫这个公认的说有4个V啊。就是大数据主要有四个方面的典型特征啊,一个是。规模庞大,巨大的数据量。还有一个呢,叫做。多结构化的数据多样性啊。啊,多样性。这个多样性是怎么理解呢?实际上就是大数据。类型啊,它它是多种多样的。
05:01
呃,数据类型繁多,不仅仅是有结构化的数据,还有很多非结构化的数据,半结构化的数据。啊,比如说这个音频图片文本。啊,网络日志,地理位置信息。所以。我们要分析,除了分析原来的这个结构化数据,又要分析很多非结构化数据。哎,这是大数据的这个第二个啊,多样性啊,多结构化。那第3个V呢?这个叫增长速度快。我拉斯体啊,我拉斯体,那就是说这个。数据的数量跟类型在不断的增加。直接影响到就是我们处理的这个数据的处理速度,在大数据时代啊,基本要求就是你的速度要快。啊,因为数据它自身具有时效性。
06:01
他所能挖掘的价值可能稍纵即逝啊。因此,数据和信息的更新速度非常快,信息的价值存在的时间非常短。如果大量的数据来不及处理,就会变成数据垃圾啊,所以这是他第3个V啊。增长速度很快。第4个V呢,叫value啊,价值啊,价值密度低啊。这个大数据之所以得到我们各行各业的重视啊,主要的原因就是它背后潜在的价值。是它的价度低,怎么理么理啊,我理。有用的数据在总数据所占的比例。啊,所以这个价值密度低,是因为说你的数据量很庞大啊,庞大的数据量,复杂的数据类型,你的基数很大。
07:04
所以你的这个,呃。这个更多的可能是一些垃圾数据跟无用的数据啊。有价值的数据呢,可能就那么几条啊,但是。这几条。的这个就非常这个这个非常有价值的,我们想啊,比如说一个监控的视频,对吧,你一个监控的视频,你的数据量多大。但是有用的数据可能就是那么一两秒钟啊,我们的这个。这个行车记录仪不是吗?啊,你都在记录数据啊,但最有用的可能就是碰撞时候的一两秒秒钟,所以它这是叫做价值密度低啊,它的这个大数据的价值密度啊的这个高低跟数据总量的大小成反比。啊,所以怎么通过。这个强大的这个机器算法,能够迅速的完成数据价值的提纯,也是这个大数据时代啊要解决的这个问题啊。
08:04
所以我们认为这个大数据的这个的4个定义叫4个V 4个V。那在大数据时代的话,这个数据的这个处理关。是跟我们,呃之前的,我们之前叫小数据时代,那时候数据处理观念是理念是大大的不一样。主要来说有3个思维变革啊,3个思维啊叫做全样而非抽样。啊,效率而非精准,相关而非因果。啊,有一本书叫做大数据时代,我是建议各位可以去看看啊,这个大数据时代是被称为大数据之父写的这本书,他在书中就提的这个观点,就是大数据时代带来的3个思维变革。那第一个说全样。全样而非抽样。
09:00
是因为说在过去啊。我们在这个传统的这个调查方式,因为过去叫做小数据时代嘛,传统的调查方式都是抽样啊,抽取有限的样本做统计,从而呃,推导出一个整体的趋势。因为当时的这个技术手段,你的这个全量的数据,数据量太大了,根本没法操作啊,所以要做这个抽样啊,要做抽样抽样。那这个抽样的问题呢?他在哪呢?呃,这个这个抽样的过去的问题,小数据时代啊,抽样的问题是在于说我要保证数据的随机性。啊,你抽样的核心原则就是你的这个样本要随机嘛,如果你不随机就不能就不能如实的反映整体的趋势。但是。你这个随机性怎么做到,其实是很难的。
10:00
对吧,举个例子,以前的这个电视收视率的调查。啊,你要从不同的阶层去随机去找被调查人,这很难的。呃,高学历的人,高收入的人啊,他们通常这个很忙啊,普遍拒绝调查。他们不会为几个赠品来耽误时间。愿意接受调查的很多可能就是呃,整天可能比较闲的低收入者,所以这个电视的这个收视率的调查结果,大家就可想而知的,他一定是有倾向性的。那现在这个大数据时代呢,这个互联网电视一普及,那这个电视收视调查。那还是以这个为例,部电视。正在看什么节目,这个信息都会都会发到调查中心啊,对你的全部数据做统计,这个数据就变得很准了。那我们的这个,呃,人口普查其实也是这个大数据的这个。
11:03
大数据这个全量的调查。所以。所以现在这个时代啊,跟过去不一样了啊。过去数据处理技术有限。我们没办法用到更多的数据,所以我们都是这个抽样。啊,叫小数据时代,我们都是抽样的调查,但这个抽样一定要保证样本的随机性。那现在这个大数据的这个处理技术,出现这个数据量这个限制,数据量的限制正在消失。啊,我们的这个样本啊,就慢慢会逼近这个总体啊,所以这个全数其实是可以做得到的啊。得到了,哎。当然这个全数据是首选啊,如果说你做不全数据,我们还是什么,还是要做到这个好的抽样数据,就是保证抽样数据的随机性啊,随机性。
12:02
这个抽样数据的随机性,它肯定比什么比不均匀的。大量数据要好得多啊,要好得多啊。所以。大数据带来的这个思维变革,第一个思维就是说现在是叫做进入了这个全样的时代啊,要这个全,而不要抽样。第二个例子呢,第2个思维变革,叫做要效率啊,要效率不要绝对的精确。这是什么意思呢?我们传统的数据分析啊,思路叫做宁缺毋滥。就是任何一个错误的数据都会对结果产生一个负面的影响,对吧。所以我们在这个小数据时代啊,必须坚持的原则是错误数据是非常的这个谨慎非常的讲究。但是在这个大数据时代呀,这个原则,这个原则是有。
13:00
呃。是变得要效率而而而不是说而不要一味的追求精准,但不是说精准不好啊,只是说这个时代是注重效率跟成本。因为如果你非得要很苛刻的要求数据精准的话,那么大数据分析就不下去了。做不下去的。我这里举个例子哈,这个讲这个机器翻译。我们现在没觉得这个百度翻译,谷歌翻译慢慢的都变得越来越好了。原来这个IBM的讲最牛逼的这个机器翻译是IBM的机器翻译啊,IBM的机器翻译的算法其实是比谷歌算法啊,谷歌翻译的算法比百度翻译的算法要要厉害,要强得多。但是你会发觉说,为什么最后的效果是谷歌翻译百度翻译的算法好啊。因为当你的数据量比较小的时候,这个时候算法牛不牛逼那是第一位的。
14:03
啊,特别比如说我的数据只有500万的时候,我一个这个牛逼的算法表现的就比一个简单的算法要好。但是如果数据达到。10个亿,20个亿。我的这个算法虽然比较简单啊,简单没你没你的算法那么牛逼,我我这么大的数据量,我可以学习啊。对吧,所以最终。最终我的这个表现是比你好的。所以谷歌算法。谷歌翻译这个这个百度翻译并不是因为说它的算法更牛逼,是因为说像翻译百度翻译它有增加了很多各种各样的数据。啊,虽然说那些数据都有会有错,比如说我这个,因为会包含一些完整的句子嘛,拼写的错误,语法的错误。啊,但是没关系啊,我的这个谷歌的这个语料库是其他语料库的好几万倍大,这样它的优点就完全。
15:08
压倒的缺点。对吧,啊。所以我们反过来正在想啊。哪怕你的数据可能有些不不精准,可能有几条数据不精准。大四。我有大量的海量的数据的情况下的话。你一些这个不精准,有有几条的不精准的数据,你其实改变不了历史的趋势啊,大的趋势我是没有错的,对不对啊,一些杂的一些不精确的一些一些小烂数据,你只是这个抖了几下浪花而已,但是你改变不了一个整个大的这个趋势啊,所以大数据时代啊,告诉我们这个思路一样,你要容忍一些小错误,因为大数据的分析目标是在于预测。在于掌握这个趋势啊,我的趋势。所以这个书中它是第二个观点啊,第二个观点就是。
16:04
大数据时代是要效率,不要绝对的精确,这是第二个观点,我觉得这个观点呢,也是蛮有意思的,蛮有意思的。那第三个观点呢?啊,书中的第三个观点叫做要相关,不要因果。这个观点呢,其实是比较有争议的啊,在那本大数据时代的书。但是我们讲起来的话,我们其实也比较容易,比较容易会大家会有个这个共鸣,因为他讲的这个还是有点道理啊,比如说我们的这个。之前啊,我们之前我们都是什么叫做比较传统的,我们的思维的方式都是叫因果论对吧。大数据时代最大的转变就是放弃对因果论的这个渴求,取而代之的是注重相关性。我们以前都是。
17:03
啊,对吧,这个佛家就是你你今天你你你你你。你这辈子这个享福,是因为你上辈子做好事啊。还有我们讲哲学的因果论啊,这个这个因果论重要不重要呢。我觉得英国人呢,这个不是说它不重要啊,不是说它不重要,只是说在大数据的时代,他可能真的是可能更追求的是一种叫做相关性啊,相关性而不是一些因果,因为可能有些因果论,你真的是没办法去深究啊。这个所谓的这个相关性啊,相关性,相关性强不强什么意思啊,就是说比如当一个数据值增加另一个数据值就。随之增加啊,如果A和B经常发生,我们是不是只需要注注意到这个B发生的,就可以预测A发生的,对吧?
18:01
这个叫做这个相关性啊,相关性。呃,我宋老师经常会举例啊,比如再举个例子啊,比如说啊,隔壁老王开了一个包子店啊,有时候呢,做少了不够卖,做多又没卖完,两头都是损失。那这个老王可能可能可能可能这个琢磨啊,这个买买来买包子的都是他的街坊邻居嘛,对不对。啊,他们这个买包子是不是是不是有规律啊啊。呃,是不是说比如说举个例子啊,邻居张先生啊,他只在周末买啊。哎,可能这个因为周末他的这个闺女啊,会来周末来看他这个闺女爱吃包子。所以老王就想记这些这个,记这些规律啊,想试想试找,找到一些因果啊。但是数据越积越越多,这个可能啥规律都没找到啊,因为。因为因为你你非常难啊,你你可能很多是主观判断,所以呢,有个人就跟这个老王支招,你就别去记那个。
19:09
顾客了,你只要记每天卖了多少笼的包子。这个这个法子很简单,可能你一看就会看到说周末比平时会多卖他三笼三笼包子,那你那你不就。不就只要在周末多做三笼包子就行了吗?啊,你为什么一定要想说这个张三他为什么周末买包子多呢?是不是他来看他呢?这个李四为什么他也是在周末买包子多呢?是不是谁又来看他呢?你这个主观判断,你根本。根本,根本很难的,所以这个大数据的一个重要特点就是相关关系比因果关系重要。哎,我们理解这个世界啊,比如时候不需要在比如说我们可能不需要了解航空公司,他怎么怎么给机票去定价,可能你也不需要知道。
20:06
这个。这个这个这个比如说超市的客户,他的一些这个。烹饪的喜好,其实我们对什么,对大数据,我们是进行一个相关性的分析。我们只。暑假这个飞机票价格是在上涨。啊,这个这个台风期的时候的话,有些物就是卖的好,我。用什么大数据的相关方分析啊,关联分析取代的那种,可能你这个主观想象反而容易错了这个方法啊,所以叫做要相关不要因果啊就是。呃,这个就是一个大数据思维的一个变革。啊,当然这个讲法呢,其实是有不同观点,有不同观点啊,只是说以前可能数据处理的目标更多追求的是叫做因果论,大家都习惯找出一个原因,心里才踏实。
21:06
但是有时候你往往很难核实这个原因啊,你可能要承认有些事情可能是没有原因,那所以在大数据的时代,这个那呃有个光光思维方这个观点叫做要相关不要因果,就跟我们去当当网买书,就跟去京东去买书,可能你买的这本书啊,那边他要给你推荐一些商品。那为什么?他们之间是有什么因果联系吗?可能还真的是没有。啊,为什么说买买这书的人多,呃,买这本物品,或者这本书人多,他又要去买另一本书,另外一个物品当中真的有因果吗?你很难去追寻,但是大数据时代,你要承认有些事情其实没有原因,更要的是一个相关性啊,他们相关性强不强?所以这是一个这个思维啊。哎,这叫大数据时代啊,给我们带来这个3个思维变革,大家实际是可以琢磨琢磨啊,琢磨琢磨。
22:06
那好,那我们来看一下一些大数据时代的一些典型的一些商业应用,商业应用。呃,第一个案例呢,我们来看一下,一个叫做。吉。他一个零售行业的案例啊。吉,实际是次吉门。啊,这个客户投诉就说这个啊,一个父亲啊,到这个塔吉特的这个卖场说为什么把那个婴儿产品的优惠券寄给他女儿,他女儿才是高才念高中啊。但是没过多久啊,他,他来道歉一下,原来这个女儿经过他逼问啊,自己真的是怀孕了。
23:03
啊,因为。这个用户啊,其实对零售商来说是一个含金量很高的群体。那这个塔吉特呢,它其实是分析,一方面它有分析这个,这个一个是他自己用的这个数据啊,另一方面呢,这个塔吉特还去还去买一些数据啊,还去还去去买一些数据啊,就是外部的一些第三方的数据啊,第三方的数据啊。美国哈,这个出生记录是公开的啊,这个孩子一出生,这个新生儿的母亲就会被这个铺天盖地的这个广告啊所包围啊。啊,所以呢,这个是个这个对来说,这个孕妇她是个很重要的群群体啊,啊比如说像怀孕的妇女啊,她她比如说他经常哈,他肯定这个要吃一些这个比如说叶酸啊,对不对,要买一些这个这个这个这个钙片啊。
24:00
啊,对吧,啊钙片啊,那这样子的话,就想说根据这个分数据分析部门提供的这个模型啊,它有个构建一个叫怀孕指数模型啊,那我如果能够说在及早的发现这个孕妇这个群体啊。我在这个孕期这个每个阶段都给这个客户送这个优惠券啊,优惠券啊,让他来买啊。这个就是大数据在这个精准营销当中的一个一个典型案例啊,利用大数据技术分析这个消费的这个习惯,做这个精准的营销啊,然后在这个用户有有需求的时候,做一个这个营销活动的精准推送。这是一个例子,第二个例子我们讲一个叫做。再讲一个,这个叫做呃,一个。一个谷歌流感啊,谷歌流感预测。啊,流感预测啊,这个6测就说。
25:01
谷歌它启动这个项目啊,启动了大数据的这个分析的项目啊,叫做流感预测啊。它呢,比这个美国的这个疾控中心啊,美国疾控中心都会发一个这个流感发病率的报告嘛,那谷歌呢,它会比这个美国的这个疾控中心啊,更早的。这个时间能够提早啊,提早一两周,更早的就是发布这个预测也同样精准。啊,因为大家想哈,现在是大数据时代,你是不是经常在网络上去做搜索搜索啊,对吧,你这个搜索的那些关键词,其实是代表你的一个当下及时的这个需要。所以这个谷歌呢,他就编了,编了一揽子的叫流感关键词啊,包包括说有时候搜索这个温度计啊,流感症状啊,呃,比如说胸闷啊,肌肉疼痛啊,比如说你的咽痛啊,要吃什么啊呃,所以他就会当用户输输入这些关键词的时候,系统就会开展这个跟踪分析啊,创建这个地区的流感图表跟流感地图啊,流感地表这个就那他就比较早啊。
26:13
啊,一般大家有有点什么小毛病,可能都是想没有人说马上就去医院嘛,肯定都是自己买些药啊,或者自己看一下对吧,你都会去搜索啊。啊,都会去都会去搜索啊,所以谷歌呢,其实呢,它的那个做这个数据模型,它的算法也很简单,就是一个回归回归的算法,但是他能够成功的预测出这个这个复杂的这个流感的这个这个问题啊。那根本原因就是谷歌的数据量大嘛,拥有世界上最大的数据引擎啊,每个用户的搜索行为的痕迹都在它的数据库里头。所以这个大数据啊,真正这个走进生活,走进这个这个社会啊,他施展的能量就会越来越大啊。
27:00
那么还再举一个例子啊,这个例子呢,也是一个数据分析啊,啊这个分析呢,可能就分析我企业内部的数据啊,啊,它是分析企业内部就是叫皮,也是很经典啊,叫做啤酒和纸尿布的故事啊啊这叫那这个故事实际上就是说在沃尔美国的沃尔玛超市啊呃,这个超市的这个管理人员在分析数据的时候,他就发现了一个比较难以会理解的现象,就是。这个啤酒跟尿布看上去是没有关系啊,没有分马牛不相及的,这个商品会经常出现在同一个购物里啊。因为在这个美国有婴儿的家庭当中,一般就是母亲在家里照看婴儿啊。那么就会打发这个年轻的,呃,这个父亲去超市买尿布。啊,那父亲在买尿布的时候,就顺便为自己买个啤酒可能啊,那如果说我这个尿布跟啤酒都是在。
28:00
同一个这个区域,同一个货架上,它让它能够容易的找到商品啊,那这个这个不就很方便吗?这个举措就让料跟啤酒销量大幅度增加。啊,但这个案例呢,不适合在国内啊的话,就国内就就根本就没这个关联关系啊,哎,但这个也确实就是分马流不相不相关,你一定要去找个因果关系吗?其实很难,刚才老师苏老师讲的这大数据时代,我们。不追求因果,追求的是相关性啊,这个啤酒跟尿布的故事的依据就是相关性啊。相关性啊。这个就是属于这个预测这个零售商的需求了啊,需求了,所以这个这个啤酒尿布这个看似可笑的事情,之所以被发现,也是我们这个大数据这个威力的这个体现啊。哎,大家现在这个足不出户,轻点鼠标就跟世界互联互通。啊,你每天的都在这个购买的喜好,日常的作息,这都是大数据的分析素材啊。
29:06
啊,所以你会觉得说这个每次打开某宝啊,推荐好物都是自己想买的东西啊,多少是分分钟的事啊,省钱是不存在的事啊。这个大数据产生大数据,1管理大数据难啊。这个管理大难,难点在哪里呢?他一定要克服两个问题。第一个问题,我这么庞大的数据,海量的数据,它是怎么存储,怎么存下来?以前是什么?呃,这个电脑。不够牛逼的话,我们就上小型机,小型机不够就上大型机,但是你总就你怎么解决这个海量数据的这个存储问题。
30:06
我这个海量数据能够下来后怎么算?怎么去解决这个海量数据的计算问题?就这两个问题,所以才诞生的,后面我们讲的这个叫哈杜这样子的技术,它就是解决啊这个海量数据怎么存,海量数据怎么算。这个。这个杜的这个发展简史给大家讲一下啊。有助于你对这个技术的理解。这个创始人叫cutting啊,Cutting这个cutting呢,呃。它是一个程序员啊程序员。呃,除了这个写程序之外,平时他也写写文章,赚点稿费啊,赚点稿费,然后他后面就觉得说,他觉得说是这个,呃,他觉得一个搜索引擎被被一个大公司一统天下,是一个很可怕的事。
31:08
事情啊。这个公司就掌握了这个信息的入口啊,对吧,所以这个do cutting呢,就想自己搞出一个开源的搜索引擎出来啊。所以原先这个的不叫,就早期它有个这个项目啊叫啊。啊,就是这个cutting搞的,所以这ting这个搞呢,搞这个开源的搜索引擎的项目啊,吭哧吭哧吭哧干了这个一年啊干了一年。然后。他也问到预提了,我好不容易把这个系统能够干到能够支持1个亿的网页的抓取。啊,这个索引搜索了,但是。当时的网站。人家是几十个亿,十几个亿,几十个亿,网页数量是万亿。
32:02
规模这怎么办啊,碰到这个难题啊,他也碰到这个难题。那随后呢,呃,这里这个非常牛逼的公司,谷歌公司啊,谷歌公司他发表了一篇论文啊,论文这个论文就是讲一个叫GFS啊,分布式文件系统啊。就是讲你怎么去存这个海量数据的啊啊量数据啊,一台机器不够叫我要什么叫分布式,就是说你一台机器存不下来,我要分开存,把大的文成一个个block分开存啊,啊我要保证这个分布系统的性啊。啊,每个副本啊,所以他每一个都有三副本嘛,对吧,所以当时他就。写的这个论文啊,分布式文件系统就是。就是教你我怎么去存这个海量数据。另外呢,谷歌呢,又发表了一篇也是影响的深远的论文,叫map reduce啊,就是就是我这个数据存下来后,我是怎么算,叫做分布式计算。
33:06
哎,这个怎么理解呢?也很好理解,分布式上就是教你分开算啊,你一台机器不是算不过来吗?那我好多台机器分开算,我把一个计算任务做分解嘛,分解出很多小任务,分散在每台机器上,它单独不就可以算吗?算完之后我再把这个结再汇总啊,所以这就是分布式的编程的思想叫啊。所以这个呢,一看哇,谷歌这个干的漂亮啊,自己干的太苦逼了,所以基于谷歌的这个分布式文件系统,GFS这个论文和map reduce的这个思想。他把它这个在他的这个搜索引擎里,把它,呃,那个搜索引擎项目当中,他把它实现出来啊。开源出来啊,就是分布式文件系统啊。开源出来一个,呃呃,就是后面叫的这个HDFS啊。
34:03
他把它开源的叫做HDFS啊。还有一个就是map reduce分布式计算,他把它开源出来,独立出来,那取个什么名字呢?呃,他当时他他名字呢,他在想我叫啥名字呢。呃,他他有个宝贝女儿,这个宝贝女儿有个大象的公仔啊,然后他女儿给这个大象公仔取名叫哈杜op,所以它就叫哈杜,所以哈杜的意义就是这样来的啊,这样来。然后2008年的时候。哎,这个东西不是开源出来的嘛,那哈杜就成为这个,呃呃,阿帕奇的顶级项目,那就会被很多公司在比如说啊。哎,这个用的这个上千节点的这个这个这个机器运行哈,啊还有Facebook啊Facebook啊,那我们腾讯其实也是啊,淘宝也是啊,这个哈杜普的集群都达到上千的规模啊,上千规模,这个这个哈杜普集群你能够达到上千的规模就是一个。
35:10
算是一个这个对你的这个技术能力的一个证明了啊。啊,怎么样。那当然这里也要表扬一下这个,呃,这个。这个这个整个这个开源啊,其实这哈一直就是一个开源的软件啊,开源啊。那这个哈的一个核心组件啊,其实就是。叫什么,它的这个核心设计啊,就是一个叫HDFS。啊,分布式文件系统。啊,里头它有分这个两个。两这个HDFS啊,它里头呢机器啊,它就分为两种节点啊,一种叫做名称节点做文件管理,一个叫做data load的数据节点做文件的存储啊。另外呢,还有一个就是map reduce这个。
36:00
这个分布式计算啊。他们就是做他其实是两个两个环节,一个是map是做任务的分解这个reduce做结果的这个汇总啊。所以他的核心思想呢,其实也很好理解啊,HD就是解决的,我怎么存海量数据,一台机器肯定存不下来,要用分布式啊,对吧?啊,那reduce呢,它解决什么这个。这个怎么说?那你单台机器的力量总是有限的吧,所以我要把计算任务分解,分解到多台机计算去,多台机器去做并行计算,然后把这个计算任务再汇总在一起,啊,这就是map reduce的这个思想。他把整个这个框架哈搞出来完之后,那用户就可以在不要了,不需要了解这个分布式底层细节情况下,我我遵循的这个框架啊,开发出了这个应用啊,利用哈杜集群的这个威力,它既能做这个海量数据的存储,又能做这个海量数据的运算啊。
37:08
那这个哈杜op的核心组件,刚才讲了两个组件,HDFS跟me reduce啊。那你看到说现在的啊,其实是一个这个叫做这个叫做生态系统,生态系统啊,这个核心组件啊。Hdfs map reduce啊,这两个是最核心的啊,那么又有很多组件加进来了,加进来的。管。哎,这里就会有这个资源管理的问题啊,对吧,哎。呃,还有呢,这个我举几个例子啊,就稍微稍微列几个大家就知道,就好多组件,比如说这个h base啊,叫做哈上的这个分布式数据库,因为你想哈,呃哈,现在是越来越发展了哈,但是它如果只有HDMS这个布式文件系统,它是不是有问题呀,就是你你是只能存文件的吧,对不对。
38:07
你只能存储文件,你只能不停的往文件去那边去这个追加数据。啊,那文件系统只能做什么目录级的管理创建文件啊,但是我现在要你对这个数据做增删改,查你文件怎么做啊。我我还要修改里头的数据,修改某一行的数据,我还要精确的查询某一行的数据,这个是文件系统做不到的,所以就会有个叫H。Base h base它底层是基于HDFS啊,出个这个叫h base分布式数据库嘛,就解决这个解决这个刚才讲的的文件系统上对这个数据的增删改查的问题啊。那么。我们。刚才讲的那个做这个,在这个海量数据做计算,有个是不是但是。
39:01
我我是不是做一些这个计算任务,我都要去写这个,都要用Java语言去写map reduce的这个程序啊,那累不累呀,我能不能用虚口语言啊,所以这里还有个组件叫hi,我们讲叫做had doop上数据仓库,其实意思是have,就是什么啊,就是让你用这个SQL语言来操作这个hard杜上的这个数据啊,呃,而不需要去写那个Java程序,用那个map reduce的这个接口写抓va程序,用缺口语言来解决,这就是have啊。后面还讲这个计。批处理啊,那如果是计算实时计算,后面又多了这个叫啊。这个Spark streaming啊,还有flink啊,啊,所以你化学这个哈杜op的生态系统是越来越多,上面有几十个组件,其实这些都叫哈啊,都叫哈杜,现在已经是成了一个从最早的两个组件变成几十个组件,成了一个叫做生态系统,所以说。
40:10
你要上一套这个哈杜op大数据这个平台,其实里头你会装的是几十种组件的,几十种组件啊,哎,我这就列在这里啊,这几点人有帮你做这个,除了做批处理的计算,还有做流计算,还有刚才讲用这个虚语言做查询分析的,不要去写这个做话程序的啊hi啊这个呃,这类产品叫做查询分析计算啊。还有做一些这个叫做猪keepper这个什么东西呢?要做一个叫做叫做叫做叫做。叫做比如说我要侦测这个集群哪些节点是不是死掉了啊,如果这个节点机器断掉的,你不能把机任务再发分给他用啊,这里就有一个这个协调一致性啊,这个这个叫做keep啊,就这么多东西啊。还有日志的采集啊,叫服务组件啊,还有我们的这个发布订阅消息卡夫卡里面有好多组件啊。
41:08
那么。现在的这个,呃。呃,老师跟你讲完这个哈,有这些组件啊,技术组的,那这个哈,现在这个。这个主要有哪些玩家呢?这个市场呢,主要有哪些玩家。因为。那个开源的,就是你会靠开源的去安装,都是个问题,为什么它很多组件你要一个个去装。那你装完之后的话,组件跟组件之间的兼容性都会打架的,有的这个组件不兼容啊,你装不上啊,兼容性其实也是个问题啊,哎,兼容的问题。所以就个的这个商业化的这个化啊,那比较牛逼哈,或者说在这个市场上比较的这家叫做cloud啊。
42:10
它的产品叫CDH,你经常听到CDHCDH什么意思啊,其实就是什么,就是这家公司cloud啊。啊,Cloud达嘛,C跟D嘛,克劳达有两CD啊,那H就是哈杜op啊叫CDH啊,它这个产品啊,哎,实际上就是哈杜的这个商业化版本。那国内呢,还有呢,新新科技这也很不错,这腾讯是投他的轮是腾讯投的啊新科技啊,那华为还有这个D。啊,做这个商业化的华为HD,其实其实还有几家哈,像新华为还有腾讯啊,这几家是比较大的,那么还有一些呢,我觉得说,我觉得是二线厂商,比如说H3C。啊啊,新华商啊,这个他有啊,他有。
43:00
好啊,呃,这个这个叫这个。是这几个玩家,这几个玩家。好的,那那腾讯,那我们现在就来讲讲腾讯吧,呃呃。我宋老师要直播带货一下啊,那这个腾讯叫TPDS啊,这TPDS它它是什么什么缩写啊,实际上是就是这个Tencent的啊,T就是tenion的啊B就是这个呃,Big data嘛啊BD嘛,就是这个big data啊,然后这个这个suit那个S就是套件啊,叫大数据处理套件啊。啊,大数据的大数据处理套件啊。大学条,然后。这个这张slide呢,我是拿的我们这个产品的产品的介绍一张slide把它搬过来啊,但是呃,大家不要看字太多啊,把我我我我给大家解释这什么东西啊,实际上TDS就是一个的商业化版本,商业版本,但是呢,腾讯呢,我们基于这个腾讯叫做叫做海量数据处理的这个经验啊,我们这个除了提供这个这个哈的这个数据引擎啊,数据组件之外,我们还提供了一些这个大数据开发的这个数据微服务工具。
44:17
啊,因为你在想啊。比如说刚才老老师讲的那个宋老师讲的哈杜啊,你写这个map reduce, 这个给你个分布式计算框架,那你用什么软件工具写啊。对吧,你没有个IDE的工具工具啊ID,你还要去搞个另外一个IDE工工具,对吧,来来写这个啊,那我们腾讯的TPDS呢,其实我们提供了我们叫做叫做处理套件,就是呃,除了这个底层。底层引擎啊,组件帮你存数据,存数据算,我们还提供了一些数据链路的,叫做微服务工据数据微服务工具,就是一些数据链路的工具啊,比如说开发。
45:01
用我做。所以。所以我们来看一下这个TBDS的一个整体的这个这个产品矩阵啊,我们我们我们主要看下面啊,从底下来说,它主要分两大部分,一个是这个底座引擎,底座引擎就是大数据基础这个纯算分析的底座引擎。啊,第二部分就是围绕着这个数据全生命周期一个工具链的平台产品啊,实际上就是两个部分嘛,啊讲讲实际的讲吧,那底层呢,我们有我们什么有这个TS的这个企业主版啊。还有这个tbds light啊,我们叫做轻量版啊,后面还有我们这个TBDS的这个op啊,这个这个加了这个叫做数据分析的这个引擎,还有TBDS的ES啊引擎啊,我们加了很多引擎。
46:05
那。好了,你会你你会问说TBDS这个引擎,TBDS这个企业版跟这个企业版标准版跟这个tbds light啊,这个轻量版它有什么不一样啊。怎么样?哎,相同的地方是,它们都是基于这个开源和杜生态。不一样的地方呢,孙老师我跟你讲说这个。TPDS啊,原先它的这个。安装啊,最最小的这个机器数要11台。知道吗?原先要11台,那这个这个就有问题了,你要知道其他的玩家哈,比如刚才老师前面讲到这个cloud,像达CDH啊,它最小三个节点就可以把这个哈杜给装好了。那华为的这个。他最低也只要6个节点,6个节点。
47:01
那华山的话呢,最低5个节点就可以装了,新华呢路集群最小安装3个节点,那原先我们的TPDS要11个节点,我靠这个就有点尴尬了,就有点尴尬,因为很多情况下你会看到说其实客户的数据量不大。啊,一年可能就产生个几百个G。这个认为是数据量认为是不大的,你你搞个11个节点,因为这个11个节点可能更多的是从呃。声音静音一下啊,11个节点更多的可能是从高可用的角度来考虑,11个节点比较多。所以呢。我们推出了一个大数据,呃,部门啊,推出的版本叫tbds light轻量版,它是下呢,呃,就是它的这个。最小安装的节点数只要4个节点。然后他把一些组件给砍掉嘛,对吧,他把一些这个轻量化啊,他四个节点起步啊,然后对硬件要求低啊,因为他节点少嘛,可能他装的组件就少了,你不要一大堆组件上啊,他可能只安装的那些,比如说老师,老师前面讲最核心的HDMS对吧,Map reduce, 还有一些离线计算的组件啊。
48:22
如果说客户要实时计算,比如说要这个flink啊呃,Sparks Spark streaming啊这样组件哈,那你机电数肯定要增加啊,增加6个节点,但是。这个TBDS跟TBDS的这个企业版,它的技术价是统一的。所以可以通过组件的叠加平滑升级到TDS的这个企业版来。解绑这样子啊,所以这一点大家就很放心,就是它的这个tbds light呢。它的刊列价呢也便宜啊,节点数低,就是比较容易给客户,就是说他他只要个大数据的重算平台来起步嘛,那后续它的升级又是平滑的,后面只要通过组,因为它的技术站是一样的啊,通过组件的叠加就可以平滑升级到这个这个TBDS的这个标准版企业版啊。
49:18
哎,这个组件,那当然企业版组件更多了,企业版我我记得企业版可能是四十几个组件啊,四十几个组件啊。这是一个啊引擎,那还有一个就是数据链路工具啊,数据链路工具是以我们是以数据的这个生命开发周期呀,从数据的这个开发数据的管理数据的这个应用。啊啊,还有一些数据的这个服务啊,我们有这个一站式数据开发平台啊,Data studio啊,全数据一个数据管理平台data manager啊,还有数据ETL啊,平台data ETL啊,这种全链路的数据工具啊,数据工具这些工具呢,呃,其实就是跟我们引擎都做适配的啊,都做适配,所以你买这个TS。
50:07
你会看到什么?如果客户买TBDS哈,它的报价其实是三个方面的组成。啊,一个部分一个呢,是这个引擎,引擎加数据工具啊,数据链路工具啊,就是我们叫软件部分的报价,还有一部分就是服务服务这里有必选的这个现场呃必选的的部署服务加呃部署服务跟运维服务,还有加可选的一些冷天服务等等啊这样实际上它是这样子的报价啊,所以你拿到的这个。Op, 腾讯的这个TBDS不仅仅是那个那个存算引擎啊,数据的存算引擎那些组件,我们还有一些这个数据链路工具给你啊数据链路,所以我们叫做大数据一站式处理套件啊,所以这就是我们我们的这个这个这个这个产品啊,这块的东西啊,就是直接给你提供的这个呃,自主可控国产化的这个数据纯算平台加这个数据开发工具啊开发工具。
51:13
那整个这个TTPDS的这个理念啊,设计理念啊。比如说因为开源的,开的这个就就意味着什么啊,他的他的这要专业人士的支持啊,它的方案不完整啊,你去安装要一个个组件去装啊,它不是一个完整的闭环的方案,它的稳定性啊。就是一个很大的挑战,这个组件跟组件的稳定性啊,如果一个组件升级,它到底能不能用啊,也是个问题啊,这要自己来解决啊,那支持力度也慢了,也不好啊,那安装都是个问题啊,他没有这种可视化的安装的界面啊呃,全部都是这个这个这个这个各种的。呃呃呃,这个这个桥命令啊,巧命令啊。
52:00
他没有这种这个管理控制台,呃做还有这种这个易用性上,比如说这个工具流平台,拖拽式交付式的这个这个开发啊等等啊,都有问题啊。那我们的TPDS实际上我们就是叫基于这个开源的哈,啊,然后我们提供的这种商业化的支持啊,商业化的支持。嗯。那这个。现在我是觉得说,哎。这个国产自主可控是个趋势嘛,你看这个数据库,现在国产数据库正在做这个替代Oracle,那可以想象是说很多这个在这个大数据这个平台上面的话,比如说这个。对这个哈克劳迪达啊,国外这个CDH啊,这里呢,就会有这个三个核心的理由啊,理由一个是就是叫国产自主可控啊,这个CDH就是老美的东西嘛啊,就有这个政治风险啊,是然后我们的TBDS呢,都已经跟这个华为的这个ARM姆的啊,R姆还有中标麒麟的这个完成适配了啊。
53:11
另外这个售后服务上,外企的话,这个售后服务啊,确实就很麻烦了啊。他们全靠社区啊,全靠志愿者啊,还有你就我们有没有这个售后服务啊,那还有就是。我们叫做这个数据服务工具啊,因为。呃,对于这个跟这个CDH去比啊,我们的这个数据服务工具啊这个。这个门槛很低啊,他们的这个,呃,他们是有IDE,但是只提供了一些少数的功能,比如说建。数据仓库啊,机器学习一些少数功能,你看到说我们有些,我们有些这个我们的工具就比较多啊,就是围绕着这个数据全生命周期的工具啊,比如说像比如举个例子啊,ETL数据的清洗啊,那CDH这边就没有他要开源的组件啊,那我们自己我们自己有。
54:05
啊,自己有TPDS,自己有自己的这个ETL工具啊。那这个,呃。很多客户呢,其实他他会说需要一个呢,呃,叫做一站式啊,还是需要一个一站式的数据处理平台啊,就是麻雀虽小啊,但也要五脏俱全。讲了这个完,讲完之后呢,我这里呃,孙老师要要要讲讲这个阳明心学啊,阳明心学跟我们大数据啊,因为孙老师这个出了研究喜欢数据啊,研究数据之外呢,我对这个国学啊也是比较有兴趣的,这个阳明啊,王阳明大家知道啊,这个知行合一嘛,啊这个。这个这个这个他这个知行合一,就是我自己的体会啊,知行合一。数据啊,知行合集,其中这种数据其实就是知啊,从数据到洞察啊,行呢,其实就是叫代码,从代码到这个服务啊。
55:12
数据是之,我们来自这个。传感器的数据来自你这个无人机的数据,数据来自你智能设备的数据啊,还有你的这个营销数据啊,销售数据我们都可以融放到你的这个数据仓库啊,或者说现在更时髦的叫法叫数据湖啊,数据其实就是纯数据的地方啊,纯数据的地方啊,所以高大上的名字叫数据服务啊,然后你才可以用这个这个数据分析啊,数据可视化,机器学习这些其实都叫代码做分析处理。那数据是知,代码是行,其实在大数据时代,最重要的是什么?其实还是数据,最重要的还是数据,所以数据是知。那很多企业我们讲企业说做这个。
56:01
他想做这个大数据平台,或者想做数据分析,其实就是我们一直常说的,有个有个叫做数据数字化转型嘛,对不对,那各位你跟客户去交流的时候,经常。哎,这个比如说客户的,如果客户的level比较高的话,都会都会讲这个,这个他们上大数据平台,其实也是为了什么,就是因为数据有价值,我要做数据化转型啊。这里呢,呃,这是宋老师经常爱讲的一幅一幅图哈,因为我在跟这个。CO啊,去交流的时候,哎,怎么。要上大数据这个好那个好啊,经常就会谈这个,他们都会这个数字化转型啊。那我相信各位呢,你们去跟去跟客户聊都会聊这个数据化转型,那这时候。我我我们确实也要装逼装一下吧,对不对,那数据化转型数据化等于是是做什么啊,实际上这里有2个点,2个点数字化转型,实际上要实现的是业务数据化跟数据业务化。
57:11
什么叫业务数据化?你看下面啊,业务数据化就是就是指数的来源。所以数据为什么是很重要,你的数据的来源,你你现在是来源什么,你可能有这个线下的点,对吧,电。POS机电商平台,会员系统,营销平台,如果你还有工厂,还有产线的东西,还有你的ERP,对吧?哎,这就叫做业务数据化啊。啊,你你你要做做大数据,做什么数据中台这么高大上的东西,你首先这个业务数据化这个这个这个你要有系统实现啊。好了,那那你你有很多系统啊,你都做的业务数据化,那还要做什么叫做数据业务化。啊,就是前面啊,看这个前面数据业务化啊,这个数据业务化是什么?就是面向这个业务的一堆小前台的应用。
58:08
比如说你可以有这个数据化运营。啊,这个数据化运营啊,还有数据可视化啊,数据可视化啊,数据可视化啊。哎。这些还有这个这个是什么呢?就是这个数据业务化,我们刚才了,刚才讲的这个啤酒跟质量,呃,跟尿布的故事啊,这就是个经典的数据业务化的应用。啊,因为呃,你保存的数据,你要做数据分析嘛,做数据分析的时候,哎,你就发现了这个这个什么买买料布的时候,都会顺路带几瓶酒回去,我们就会针对性的做这个营销的策略啊,这就是数据业务化啊。啊,那业务化当中你会看到说数据化运营有这个数据画像千人千面转化率啊这些东西啊,数据可视化的话,可能会上一个什么叫做C叉O管理驾驶舱数据大屏,对吧?哎,对对对对对对啊。
59:02
那讲了这么多后。可能客户又问你说我要上数据中台啊,数据中台很时髦啊,哎,可能这时候你你突然间就有就有又有点晕了,嗯,这个数据中台这个这个中视中台这个东西你是来干啥的干什么的。所以呢。这个数据中台是什么东西呀。其实数据中台,我我我就宋老师,我就教大家一句话,数据中台实际上就是什么意思,就是5个数据资产化,所以。所以做数字化转型啊,除了原来讲的业务数据化,数据业务化之间还差一个叫做数据资产化,真正的数据。为这个客户做这个数据驱动业务啊。这个真正的叫做这个这个这个这个叫做转型啊。
60:03
什么叫资产?这个资产按照会计学的定义,就是未来可以给企业带来利益收入,带来现金流的叫资产。那。我们讲这个数据中台啊,数据这个。这个这个资产化,实际上你可以理解是说。当。我。在门店我举个例子,比如说我,我是做一个这个卖咖啡的啊,卖咖啡啊,我在门店里。买了一个咖啡。那门店的订单系统是不是就增加一条数据记录?哎。那我们其实通过APP,抖音小程序,公众号,电商渠道这些去去看那些这个咖啡的内容,我们去查这些这些内容。不但可能会,呃,看完后这些啊呃,我们会不但觉得说,哎不错,去点击去买单,不但可能。
61:04
产生订单,而且还会产生一些行为数据,对吧?我们经常去查看哪些咖啡啊,哪些咖啡SKU经常喜欢看哪些明星喝的咖啡啊,经常在媒体当中评论这些东西,那这些东西没价值啊。这些就是个足迹,跟我的数据记录,其实就会形成一个。你可以打上标签,你可以把它变成数据资产,那有了这个数据资产完之后。有完有了,有了这个数据资产完之后的话呢,其实。我可以直接什么。直接就。直接就就就做一些什么变现的东西,比如说我把这些数据资产服务化,我提供给我些前台,一些前台的业务哈,他直接使用数字资产,比如说你看到这个,比如说你给这个男,你你你看一下哎,这个客户啊,一个标签,他是这个男这个这个这个囊中比较羞涩啊,不是是是这种囊中羞涩的客户,我可以提供打折券啊,帮助促销,但有些客户呢,你看他的标签是什么,商务旅行的客户啊,就直接这个,我就给他什么,呃,推出一些这个。
62:21
比如说我跟一些这个就是高端客户啊,我可以跟一些酒店集团联合推出这个免费获赠咖啡的业务啊。这些东西其实不需要你让C叉O去看那个报表啊,等CO看完报表再决定这个黄花菜啊。所以这种就是。就是你要做到什么,就是数据资产化,这就是其实数据中台做的就是数据资产化,这种模式其实就是数据来驱动业务。这个呢,哎,孙老师又要借用这个阳明心学啊,一个一个大家可以去网网上去搜,阳明心学有个经典的经典的四句话啊,叫做有心句式时,无心句式话,无心句式有心句式话。
63:12
那个套王阳明先生的说法,这个心就什么,就是数据资产。抓住了这个心,无论或者换,都是良知啊。所以。把那些数据资产。插上这个API的翅膀,就是数据资产服务化,这个就是叫做数据中台,就做这个就是我前端的一些数字化的业务,可以直接调用这个API啊API,那把这个业务我就快速的交付到用户手里啊,用户手里我就直接就可以什么。直接利用这些数据资产,那就可以做一些这个促销行为,打折行为啊,打折行为啊,就可以创新迭代啊,创新迭代,创新迭代啊。哎,这就是老师这个这个这个图啊,这个图啊,你会看到说原先我们可能还在做的什么做的这叫分析报表啊,数据仓库啊,呃,分析报表啊报表看完报表,那现在如果你做的数据资的话,你做的数据资产话,其实你就是什么做数据中台了,讲白了你就把数据变成API了。
64:19
那这数据变成API,我就可以根据什么,你看根据的这些,这个客户一些标签,他的商品偏好,他经常在哪个时段上去点啊,他经常他他买的那些咖啡都是哪些客单价啊,哎,我就可以得到这个客户什么他是对促销敏感,经常是货比商家的消费特征,我的一些这个前端的应用,我就是直接就可以,什么直接就可以提供这些,呃,促销方案直接给他联,联动出去促销方案给他的。哎,这个其实就是叫做这个数据驱动业务啊,这就叫数据驱动业务啊。哎,数据驱动业务。
65:03
好啦,今天孙老师把这个大数据的前世今生这个课程,哎,就把讲给他了,把这个大数据的定义啊,大数据时代的这个思维的变革,哎,大数据的典型案例,还有这个大数据的什么,它的这个技术。技术构建啊这个。哈杜的历史对吧,哈杜的一些基本主见啊,还有。商业化版本有哪几家,呃,做哈商业化版本的厂商还有这个这个这个我们腾讯的这个TBDS啊也讲给呃,还有这个结合苏老师一些领悟啊,包括我对数据中台一个领悟啊,所以数据中台其实也不是那种很复杂啊,网络上数据中台讲的很复杂,这个这个定义很多,其实解读解数据台就是就是做数据资产化啊,提供个这个把数据资产服务化,提供个数据的这个API,用数据来驱动业务而已啊啊把这些体会讲给讲给呃各位兄弟听啊,今天孙老师这个整个就讲完了啊。
66:09
谢谢大家,大家看一下有什么问题啊?喂,大家能听到吗?哎,能听到能听到啊,你说啊,我提个现在还比较迷惑的问题哈。嗯。我想问一下这个这个大数据啊。跟这个AI。它的区别点是,区别点在哪里呢?啊,这个刚才讲的这个一个,呃,你刚才这个问题是讲这个。大数据啊,和这个我们讲的AI,呃,我刚才听到你讲的是AI人工智能是吧?啊。
67:02
大数据和这个和这个AI人工智能它的这个。区别和联系啊,是这个问题吧。对哈,没错没错好没错没错,好,这个也是这个好问题啊,也是也也是也是好东西就是。呃,人工智能啊,首先这个这个这个这个人人工智能啊,现在现在是一个这个呢,呃,它是一个这个目前比较火的东西啊,人工智能的核心呢,就是在于说这个这个思考决策啊,思考决策那好了这个。这个大这个这个思考决策,它主要是想这个我这个机器能够能能能不能像实现一样,对人的像人类一样能够实现思考吧,对吧,能够实现思考推理啊推理。那好了,机器什么时候才能懂人心啊?
68:03
呃,机器什么时候才能懂,懂懂人心,这个这个就是个问题,就是机器什么时候他会懂呢?啊特别懂呢,就是说类似于说比如说这个这个这个这个假设,比如说一个音乐软件啊,他推荐一首歌,这首歌我没听过,也不知道名字,也没办法搜,但是软件推送推给我的,我确实很喜欢啊,他什么时候能够懂我啊。能够登录啊,它的怎么这个推理能力怎么怎么有啊,哎,所以氯化学。这个。机器。这个机器它怎么能够做推理,这个这个确实是,而且他这个推理还要还要还要能够学习,能够能够能够学习这个机器跟人这个这个完全是不一样的物种,那怎么办呢。哎,那我们就是说利用这个机器,它的这个计算机器计算能力很强嘛,所以希望他能够能够自己学习,那具体学习自己学习,我们就需要为他一些大量的数据。
69:08
呃,对的大量的数据,这个对大量的数据呢,他通过这个数据呢,他是可以学习到啊,比如说我们给他一批训练数据,训练数据呢,可能是有打好标签的,呃,打好打好标签那些训练数据就是就是说这个数据呃。是什么啊,打一个标签,这个数据是什么?打一个标签,然后他通过这些这些数据,它能够自我。自我去统计,自我去统计,那以后那对。这个训练完之后,对未知的数据呢,它就可以经通过这个训练出的模型啊,做这个推理,所以说人工智能跟大数据的联系。联系是说人工智能其实是需要大量的数据做这个思考跟决策的基础。呃,基础哎。
70:01
这人工智能需要这个,所以你会看到人工智能三要素啊,它的三要素当中,呃,第一个要素就是讲数据啊,第二个算法,第三算这是人工智能数,所以它第一个就是就是说,所以在这个层面上讲,我讲大数据跟人工智能关系啊。大数据这个这个数据就等于是。奶粉啊。这个喂养天才的奶粉,所以人工智能其实是数据,需要大数据做思考决策,所以为什么现在这个人工智能会火,会好,以前为什么都不火,以前数据没那么大,现在有大量的学习数据完之后他就会,他就这些学习,我就可以训练它,训练它这是这是这个人工智能需要大数据作为他这个思考决策的基础,它需要有一个大数据为他,为他学习。另外呢?这个大数据也需要一些人工智能的技术,做什么数据价值的提炼,我刚才讲那个那个数据是很有价值的,但是他这个怎么把它提纯出来,那就要用一些人工智能的技术,比如人工智能的这个,比如说自然语言识别。
71:14
啊,我给你一堆。我已经有一堆这个舆情的数据了,对不对啊,有一些这个舆情的数据,就是说正面的评价,负面的评价,那你就要用一些人工智能的技术啦,比如说你的自然语言的实业啊,那你对这些评价哈,你是不是要这个,这里又涉及到这个这个这个这个这个。这个这个分词啊,就我们讲一些人工智能技术叫NLP自然语言理解,你要有个这个这个这个这个模型啊,词语言模型啊,对吧?哎,所以这个大数据也需要人工智能的技术做数据价值的这个提炼啊,所以二者呢,这个就就结合起来了,哎,就所以人工智能其实就是算法跟。算法跟大数据的这个结合的产物,我个人是这么认为啊,算法跟大数据结合产物,当然这里还有一个还要有个这个算力基础平台呢,因为还要机器去算啊算力所以是这样子的,这个这个这个关系啊。
72:15
嗯,谢谢宋老师哈。好好,我再进一步问一下啊,那比如说我现在作为一家互联网公司。那我想做一个这种,呃,人物画像这么一个系统。那在公有云上面,那我需要用到哪些产品呢?包括每个产品它起一个什么样的作用?嗯,他要做这个。做这个。客户,你刚讲的客户画像对吧。的应用是吧。是吧?你就是就是一家公司啊,他要做客户画像,他想这个用这个大数据做客户画像啊,这个客户画像的这个这个应用对吧,怎么去搭建是吧。
73:04
喂。喂喂喂喂,听得到吗?是是这个意思吧。啊。网络不好吗?喂。可能。啊,就是我怎么去搭建用户画像是吧?啊。超级好像没声音了。Hello.喂,能听到吗?现在能听到,现在人家好啊啊啊,不好意思,我这边姓。
74:05
好不好,那个我的问题就是说如何用有产一个这种用像。OKOKOKOOKOK, 好好听得到听得到,听得到听到,那么来讲一个这个啊,听到听到听到。领导明白。公有云搭建一个。OK好OK好,我们俩好,我来说一下啊,这个这个用户画像,这也是一个一个这个应用嘛,啊一个应用啊,主要用于这个精准营销啊,用这个用户统计啊,数据挖掘啊,构建构建,那其实构建用户画像啊,这里有这几个流程啊。哎,就从流程上来说的话,第一个呢,你要做这个数据的收集,对吧,这个数据可能来自于这个网站的交易数据。啊,数据的这个用户的行为数据啊,网络日志数据对吧?哎。
75:02
那第二呢,你会要做这个,会做一些数据的处理啊,预处理啊,清洗结构化,标准化,第三呢,要做一个建模,这个建模可能会用一些这个。机器学习的算法啊,文本挖掘聚类计算啊,然后最后得到这个这个这个最后最后最后你你整出这个画像啊。那从。那从我们的这个底层技术架构搭建呢,其实无是无非什么呢?第一。你这个数据,你收集的这么多海量数据去存,你是不是又要用到前面这个这个HDFS啊,这个分布式文件系统对吧?NHDFS这个去存。那存完后呢,你要做这个分析计算,这里呢,一个呢,你要用这个。叫做叫做编程计算框架,分布式编程计算框架啊,Reduce啊。然后呢,你呢,可能用虚语句啊,可能有些我用虚口语句啊,那数据用虚口语句做一些分析嘛,啊数据查询嘛,那又用到hi这个组件。
76:06
哎,还对,那我可能说我要去这个。这个要这个。流计算你可能又要用Spark的组件啊,那这些组件呢,其实呢,在公有云上呢,哎。我我我我是不建议大家,呃,不建议说哎。比如说你你去买一个CVM去,然后自己去装这个开源的这个哈度版本,然后去装这些组件组件其实你就可以用我们公有云上面的这个弹性E2。弹性这个弹性map reduce啊,弹性有有的有的地方叫em啊,我们叫弹性map reduce啊。这个际是什么呢。啊,你去点的时候可以选择这个集群是什么样的机器规格,你要预装什么样的组件啊,比如说我刚才讲,我说老师刚才讲了这里要用到这个吗?这个Hi啊,或者你要用着这个这个map reduce啊,你要用到这个这个Spark等等组件啊,你这样搞这个你就可以选在那个。
77:11
这个弹性reduce你可以选哪些组件啊,选完之后你这个托管的这个集群。这个托管的这个多集群就就有了,后面就是你的这个应用的开发。所以建议就是用我们托管的哈,集群啊,弹性啊,MR啊。弹性map reduce.哎,这是等于说自己自己自己自己自己去搭建啊,当然如果说我可能说我我我我我去买一些。这个用户画像的一些SARS的软件行不行呢?那肯定有,当然是SARS哈,我刚才讲的是你自己自己去搭建的啊,你自己有数据科学家,你自己有有有这些开发人员啊,要做的话,那搭建其实你要的只是一个这个这个这个这个大数据集群嘛,那大数据集群的话,自己搭建的成本很高啊,那你愿。
78:11
那你去用这个云主机上去搭建的,你其实其实你你你的那个你你只是省了一部分的成本,你有好多这个这个自己去安装的,安装这个就很麻烦,所以我们有这个弹性map reduce啊弹性map reduce就是提供托云上托管的的。这个集群啊,你可以选择规格,你可以选择你要哪些组件啊,那出来以后你就直接连上这个哈,集群就可以去用了啊。喂。哎,我都回答完了啊。那我看一下辽中。
79:01
还有问题不?哎,宋老师我问个问题啊,就是说那个之前也接触过一些大数据的,那么现在因为刚才您说那个变成计算啊,做reduce,或者是现在做这种Spark,那个Spark的也好,他好像都是做这些的,那么我们现在客户或者是渠道一般什么场景下会用到这种传统的,或者是说用到Spark居多啊,这块之前见的比较少,请教一下。呃,你刚才讲这个,呃,什么时候运,运到Spark什么这些东西也好,我看该听的,呃,听的还不是太清楚,你能再说一遍吗?就是因为之前也是跟客户聊或跟渠道聊的时候,然后他们也是说现在用Spark,然后替代原来的杜不去做的话,它的效率会比较高一些嘛,用内存去做计算啊,但是呃,我就想了解一下,那么现在大概大家都是这么做的吗?或者是说什么场景下大家用Spark用的多,或者是说Spark会有哪些弊端,有些客户用不了呢?就是大概请教一下,哎,好好比较好问题,我我现在再把这个这个发过来哈,就是我们要首先要纠纠正一下,就是呃,首先要纠正一下这个客户讲的。
80:20
不太准确的地方啊,其实不是叫Spark代替。Op你看啊,在我这里啊,它也是op的这个生态系统的一个组件,它是代替什么,代替原来的map reduce啊,原来map reduce.都是分布式并行计算的编程模型,但map reduce效率不高,是因为说它在这个,因为所有的计算任务啊,都是要转换成一个map跟reduce这两个操作,那转换成这个这两个操作的时候,这个map reduce是基于磁盘做计算的,就是每个步骤的中间结果,它这个数据序列化都要到这个磁盘上,IO成本就很高啊,所以它的算法开销就很大,这个延迟就很高,无法胜任一些叫叫做一些叫做准实时快速计算的的过程。
81:13
那后面的Spark呢,其实对这个map reduce的这个缺陷做了优化,Spark是基于内存计算,是说他把这个中间结果放到内存当中,哎,然后它是这个这个这个它的这个分布式计算的编程框架,它用的是叫做叫做有向无环图,这可能稍微技术一点,你其实只要记住说Spark它是把中间结构放在内存当中,减少了这个迭代过程中数据写入磁盘的这个需求,提高的这个计算呃处处理的效率,处理效率啊,所以。Spark跟这个map reduce都是分布式并行计算,只是说他们各自执行的操作不同啊,所以所以我可能在装的装的时候我可以就不用map reduce啊,我就用Spark啊,Spark但你HD都是要的啊,HD是没人可以替代的啊不,所以这些其实都是叫哈杜啊,都叫哈杜啊。
82:11
哎,都但只是说呃,传统的哈杜ER呢,可能大家都是用这个叫map reduce啊,那个就是叫做呃,叫做离线计算啊,离线计算啊,你再看我这张图,这边讲P处理嘛,比较多啊,那10巴克是对批处理呢做的改进,它的效率比较高,是基于内存的,哎,其实它也叫做准实时啊,也称为叫准实时啊,这里还有它有一个Spark streaming呢,可以做到一些这个实时的计算,实际上是这个啊,这个概念是这个样子的。就表白就是说我是一个离线计算的,我其实只要离线计算批处理的模型,我可以不装Spark,也就用map reduce就行了,哎,如果说我要一些实时计算,我要效率高的处理,我就要装这个Spark的这个组件啊,我就不愿map reduce那个件啊,用Spark去代替map reduce.
83:02
实际上是这个样子,只是说过去传统的哈杜ER1.0,它没有这个Spark这个框架,它只有这个map reduce这个框架啊,所以有人会说,诶,Spark代替了哈多果,其实不是这个,但哈多果现在2.0以后,它就有了这个Spark的这个,哈多有2.0的这个,就有10SPARK这个框架了,实际上是并行计算那边的替代而已。哎,好嘞,谢谢宋老师,好好好。尚老师,我请教一个问题。嗯,就刚才讲课的时候讲到了一个父亲收到了女儿的呃,怀孕的产品的打折券,然后现在大数据还有一个典型的案例,就是说要啤酒和尿布放到一块儿卖,那他这个是通过数据挖掘的形式去做的,那有一个问题想请教宋老师的,就是他这么多的数据是怎么做聚类和关联分析的,就是他怎么根据这么多的数据判断出来这两个是相关的。
84:02
好。那个。啤酒跟纸尿布的这个数。这个这个案子啊,其实呢,他分析的这个它也叫大数据分析,只是这。时候大数据呢,是企业类的数据啊,因为数据量足够大,也是叫大数据,也叫大数据,然后他在他在做的有数据在这的,那这个。就是关联算法,它有些关联算法可以做这个,比如说我的做一些,我做一些数据的一些,呃,如果我不讲这么复杂的关联算法,比如说你做一些数据的透视图表啊,图形图表,你就发觉说,诶为什么这。这两个产品,它它是呈现一个叫正相关啊,进相关同比的同比的增长。经常会同比的增长,那就是一个正相关吧,那这就一个数据的关联性啊,那你再去,那你再再去去研究它啊。这是这个啤酒跟纸尿布的这个,那么另外呢那个呃。
85:03
塔吉特呢,塔吉特的话呢,它跟这个它也是做。做分析啊,但是他的一部分数据,他他不是完全企业类的数据,它是有有自己的这个交易数据啊,就是有一部分是自己交去,还有一部分他是买的一些。搜索的数据,所以它是这两个数据做结合的啊,因为你想一个是交易数据说。呃,就像宋老师啊,宋老师这个之前脚扭了,脚扭的话呢,宋老师会干什么事呢?第一个呢,也是买东西,先先去商场买了一个这个啊,只不过现在商场就是那个电子商场,网上展打按过去的话,就是肯定先去买一个护踝,对不对,一定要买一个护踝的装备,然后再去,再去买一些巴布膏啊,这是有个交易数据的。第二个的话,孙老师又很关心一个很焦虑,说不。我这个我这个我这个能够能够多快恢复啊,我会一直在查知道吗?我在网络上一直在查,说说这个。
86:08
是一个月就能够能够出去跑步,还是说要一定要两个月啊,我就很焦虑,我会一直去查,那为什么一定要等两个月啊,我会查说有没吃什么保健品,或者有什么方法能够让我的恢复时间短啊,你不要告诉我伤筋动骨一定要3,一定要这个这个这个三个月天啊,那好,我这些是不是都是在那个外面查的数据,那这两个数据一结合就判断你。这个就这个商家就实时的推荐啊,直到你买的这些互怀工具完之后的话,你可能还不够,你可能还要去买一些什么呢,买一些这个什么叫做木夫复利啊,那个叫什么,那个叫做那个氨糖对吧,那个那吃点这个硫酸氨基氨基氨糖啊,能够什么这个或者还在补一些钙片啊,就跟就会对你做促销啦。
87:01
明白,一个是买回来的数据和现有的数据结合是正相关的,然后另外一个是企业内部的数据拉出来做分析,发现这两个是有相互关联的。啊,这么理解对了吧。呃。是的是吧。呃,这个该这个这个这个这个这个就说虽然不是太精确,但呃虽然不是太精确啊,但但但但但但也也可以这么认为,也可以这么认为啊。好的好的,谢谢宋老师啊啊好。呃,宋老师,呃请教一个问题,就是刚才呃讲到这个这个数,呃数据业务化,业务数据化,还有这个数据资产化,因为我这边嗯,就是偶尔去拜访那一个去客户的时候,他们有时候有一些需求,就是这个做这个数据治理,他这个和咱们这个大数据这一块,就是呃有没有什么这种关联性啊,这数据治理这块。
88:00
哎,好好好这个,嗯嗯。那个这个也是个问题哈,就是很多人会会提这个数据治理啊,数据治理,然后这个。这个刚才我讲的这个数据数字化转型,这个数据中台啊,数据资产化啊,这里这里又有什么,又有又又又有什么关系呢?啊啊,那这个这个首先你你要知道说这个数据数据治理它,它其实是其实是什其实是他他他是要做一个什么事哈,他要做个什么目的就是说。就是说这个原先的这个这个数据啊。它的来源有好几个地方。哎,好几个,就因为你要做最后数据,你数据要变成资产,你你这里有个问题是,如果我的数据都是垃圾数据,它怎么变成资产啊。
89:01
对是的,客户他其实当时也去讲,就是说他企业当中就是就很多年了,沉淀了非常非常多的数据,然后随着业务的增长,就是呃,想把这些数据做治理,就是想把它做的有价值的数据出来,对对,就是你你你在你到后面说数据要变成资产的时候啊,数据要变成资产的,首先你要保证这个数据的这个质量,就是数据呢,你不能是垃圾数据那。那这个保证数据的质量,不是说这个数据是错误数据啊,其实有些数据它它不是错误,只是说来源不一致。导致它是有不同的表示方法,比如说我举个极端的例子啊,觉得比如说我有这个进销存的数据,我进销存就是说我这时候客户我是用两个字段来存,一个姓一个名。那我有电商的数据,我电商时候客户的这个姓名,我是用一个字段来就是客户姓名。
90:01
嗯,那好了。以哪个为准?这个时候的话,我也觉得,我也是说,虽然说你可能数客户数据没有问题,但是就是因为你的一些,呃,因为不同系统都是不同的人开发的,它的这个定义标准一旦不一样的话,就变成数据不一致了,这个也叫数据质量问题,所以做数据治理呢,它一定它它它一定会有个叫做什么,他一定有有有有有一个很重要,后面叫数据标准化,形成一个叫数据。啊,数据标准化就是就是好,就是我对用户的定义就是以这份数据为准的。哎,你们都是要跟我去看齐。啊,或者说以后我再去接,我再去建新的系统的时候,关于数据的定义就是以我这个。做这个标准啊,他要做数据的标准化啊,所以做数据的这个这个这个你要把数据变成价值啊,你要做这个,你要把数据不能拉近,要做数据治理,那数据治理呢,实际上呢,就是这里就会涉及到一些,比如说我刚讲的一个数据标准化,还有数据的这个质量的管理。
91:11
啊是吧,你那这个数据的分布跟存储,其实也可以放在这个治理上啊,你可以叫数据的分布存储,那确实是你这个数据要怎么合理的存放吗?还是在ID吗?然后另外呢,做数据治理呢,还有一个这个既然我数据有价值,有比如说有客户的联络信息,那这个数据是不是要考虑到数据安全啊。数据的权限啊,所以这也都是做数据的,也也都是叫这个数据治理的,这个这个这个这个这个这个范围啊啊。实际上是这样子啊嗯。好的好的,谢谢宋宋老师啊,理解了理解了,好好好好,嗯嗯好的,嗯。
92:01
所以对那些做数据架构,做这个数据做这个做这个大数据,搭建数据大数据的基础架构的时候啊,他与其去自己辛辛苦苦去搭啊。其实其实他可以考虑,比如说它因为云云化这是一个这个趋势,他可以考虑考虑用这个map reduce啊,弹性map reduce就是托管的ER的这个集群啊,但这种托管的是针对说其实客户是有自己的这个开发能力的。他其实是有自己的大数据的团队啊,他其实是要了一个是他不想把我的大数据的开发团队都去做数。都是做哈集群的这个运维,他可能是要这是一类,那另外一类呢,如果说他需要说这个大数据集群私有化。需要私有化,那私有化的话,他又需要说这个这个这个这个这个服务的支持啊,我们这个商业化嘛,商业化的版本嘛,就会提供这种服务的服务的支持,那你那你自己去装那些组组件,你又变成是什么,你又你你又变成是说这个很大部分精力啊。
93:08
都会考虑到这个组件的安装,因为那么多组件它不是。在之下,它不是它不是像我们这个Windows啊,直接这个那个SETUP1NEXT next就完事了啊。啊,那些组件的安装要去改很多的配置文件的啊,然后然后这个因为都是开源的嘛,组件跟组件之间版本号。不对应它很多就会有冲突啊知道吗?解决一个组件之间的冲突是个会很大的这个神,那所以说这个哈的升级到呢,他他这时候就是有个这个商业化,因为商业化的话,它其实把你这个集群这个这个这个性能都整合好了,整合好了。好了,然后他也提供了很多的工具,比如最简单你去开发写代码。啊,你不是还要去装那个什么,比如Java开发,你不是还要装Java的那个那个eclips对吧?啊,那我们这个这个TBDS,它其实已经都是一整套都含进去,它就是有一个的这个界面啊,都都含进去的,这个统一的这个门户啊,统一的门户啊,然后你这里可能还要考虑到说我这个集群的维护,比如说某个节点淡掉了。
94:19
对吧,新的加进来的,那你肯定是要一个这种,如果这些,如果你是自己去搭建那个那个开源群,你是你是很头疼的事情啊。啊,今天讲就谢谢大家捧场啊,下次孙老师再来开课啊,谢谢大家。回头聊啊回头聊。宋老师,我这边还有个问题哦,提到那个框里面了啊,我看到了你就讲怎么去主动推maps啊,是不是我这边信号有点差。啊,我刚才其实讲的,我刚才都已经回答完,我看到你的去讲了,讲了讲了哎。
95:00
比如说技术型的公司,他要这个哈杜的这个集群,呃。一个就是我们觉得就是公有云托管的这个云哈多ER的这个这个云上的这个托管的哈多集群,就是弹性map reduces啊,如果它有私有化的话,我们建议就是用这个TPDS的light的这个轻量版啊。好好明白了啊好,谢谢宋老师,好好好好拜拜,嗯,拜拜,谢谢宋老师,嗯。
我来说两句