温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
前面咱们讲了data frame了,接下来我们讲一下data set,那么data set呢,它其实啊是具有强类型的数据集合,需要提供对应的类型信息,咱们之前给大家讲的那个data frame呢,其实是没有类型的概念的,比方说什么U啊,E啊,没有,它有的只是数据本身的类型,什么字符串啊,什么int呀,对不对,诶没有那个我们自己定义的那种,诶数据类型是没有的啊。那么这个为什么会有强类型的概念呢?是因为我们如果通过类型来访问数据会更加的方便,比方说U。你当用了U之后,里面的什么ID属性啊,Name属性啊,A级属性啊,用起来就会很方便,对不对?哎,不用考虑它的顺序什么第一个第二个第三个就不用考虑这个了,所以我们接下来呢,给这个大家把data set咱们介绍一下,那么这个data set呢,首先它可以通过样例类的方式来创建出来,大家看一下咱们这边就有一个叫case class person,这个是什么意思啊,它就表述的含义是我构建一个样例类。
01:04
那么有类的话里面是不是有属性,有属性是不是就等于有结构,哎,所以啊,咱们就直接拷贝啊,同学们直接拷贝。在这个地方我们来啊,咱们在这个地方咱们复制,复制以后放过来,我们回车,回车以后,现在你声明了一个样例类叫做person,那我现在就可以多准备那么几个了,所以来我们写上一个list,它等于list,然后写上一个叫person,因为它是样例类,你可以直接通过这种方式,比方说我们叫做张三,诶好,然后给一个张三啊。张三,然后给个30,好了,再来一个,我们再写个括号,三再写个括号,括号里面写上啊,咱们来,咱们叫做李四,然后给个40,我觉得可以了,写完之后回车,那么咱们的的就准备好了吧,然后历史的点咱们可以看一下,大家看一下它里面有一个什么呢?咱们叫做to DS,咱们叫DS,然后回车,回车以后你会发现什么呢?是不是就直接得到了一个叫做data set呀,这就是创建data set的一个比较简单的方法,那好了,那你现在能够得到DS了。
02:14
咱们点to DS,然后回车,回车以后我该怎么去看它呢?你说了,我现在已经有数据了,已经有数据源了,对不对,而且这已经结构已经告诉你了,那这个时候我们能不能够把数据展现出来呢?其实很简单,咱们来展示一下回车,回车以后你是不是发现好像跟咱们之前的那个data frame非常的类似啊,诶,非常的类似,只不过它里面会有一个类型,而且有结构的概念,又有结构又有类型,所以啊,在这种情况下,你会发现咱们的data set好像要比data frame的这个功能啊更加丰富吧,所以我完全可以干嘛呢?在我们的这个地方给它变大一些,哎,变大一些啊,然后呢,给它改个颜色,变成蓝色,然后置于底层,所以大家可以看到我们就可以变成我们的这个样子了啊来,往下挪一挪,往下挪一挪啊,往下挪一挪的话,那这个地方就是我们的什么呢?咱们叫data set,然后呢,往下走一走,往下走一走啊放过来以后,这是我的data set,那么我的data set呀,它更关注的就是类型本身了,所。
03:21
被拷贝,拷贝以后放过来,那么我们这里比方说叫做UR对吧?诶有个UR的类型,你这个是我们的属性字段,我们的列,这个是我们一行一行的数据,对不对?所以啊,类型我们的列,我们的结构,咱们的数据,那不就都有了吗?哎,这就是data set data frame和RDD它们之间的一个关联,那好,那同学们,那我现在我们如何能够把一个RDD变成我们的data set呢?这个你要变呀,不太容易,为什么呢?因为中间跨的一对不对,那好,反过来讲,Data frame能不能变成data set呢?所以我们这里呢,来看一看啊,不过我们先停一下啊。
我来说两句