温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
最近有很多同学问我到底什么是大数据,因此今天我专门录一个视频来讲一下这个问题。其实大家在网上搜一下就能搜到大数据的概念,在这里我不讲那个官方的概念,因为呢不好理解。我举两个例子来说明到底什么是大数据,以及我们在大数据体系当中所要解决的问题是什么。第一个例子是商品推荐。这个场景相信大家都遇到过,假设某电商平台想把过去一个月交易卖的好的商品放到网站的首页上,这样用户打开了网站的首页就能看到相关的商品信息。功能说起来非常简单,但是具体的实现的时候会遇到哪些技术问题呢?网站可能需要根据过去一个月中交易的订单来进行分析和处理,从而找到卖的好的商品。对于一个大型的电商平台来说,一个月的交易订单有多少?这肯定是一个海量的数据,因此所面对的第一个问题是大量的订单数据如何存储,我们可能不能将其存储在关系型数据库中。假设这个问题我们已经解决了,那第二个问题是如何找到卖的好的商品呢?换句话说就是如。
01:30
如何处理订单数据?由于数据量非常庞大,可能不能使用传统的单台服务器去解决,如果从技术上把这两个问题都解决了,那我们就可以使用机器学习当中的推荐算法实现一个商品推荐的一个系统。第二个例子是天气预报。假设我们要预报一下北京地区未来一周的天气,此时可能需要将该地区各个气象观测点的数据汇总起来。
02:08
再通过气象上面的专业知识进行处理和计算,才能做出一个天气预报的结果。从技术实现上看,所面对的问题与刚刚的商品推荐是一样的,把各个气象观测点的数据汇总起来,这样的数据有多少?肯定是一个非常庞大的数据量,如何解决数据的存储和计算问题将成为实现天气预报系统的关键。因此,通过刚才两个例子,我想说明的是什么是大数据呢?或者说我们在大数据体系中所要解决的核心问题是什么?相信大家已经知道,大数据体系所要解决核心问题有两个方面,第一个方面是数据的存储,第二个方面是数据的计算。由于数据量非常庞大。
03:11
可能不能使用一台服务器来解决这样的问题,因此就需要构建一个分布式集群来解决,我们只要把握住了数据的存储和数据的计算,就把握住了大数据的核心。哈杜普斯巴克弗林克。都是围绕这两个问题所提出的开源的框架,你现在明白了什么是大数据的吗?欢迎评论区留言,讨论好了,记得点加号关注赵玉强老师。
我来说两句