暂无搜索历史
有两个很重要的文件 第一个就是:canal.properties 第二个就是:example目录下的instance.properties 文件
canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。 c...
为了方便测试,单独把sparkSession 提出去,使用它 Junit的方式进行测试运行。
累加器:分布式共享只写变量。(Executor和Executor之间不能读数据) 累加器用来把Executor端变量信息聚合到Driver端。在Driver程...
SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的组合,所以在SQLContext和HiveCo...
在spark中,有两种算子,Transformation转换算子和 Action行动算子。Transformation转换算子在整个job任务中,都是一个懒加载...
Sequence文件 SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在Spar...
所以主要了解HashPartitioner分区器,RangePartitioner分区器及自定义分区器。
此时运行:会有问题吗? 结果没有:其原因是因为x属于局部变量,可以直接进行序列化。而放到外部,那么就需要与SerializableRDD关联,序列化x变量前肯...
所谓的持久化,就是将数据进行保存,避免数据丢失。RDD持久化并非将数据落盘保存,而是用作缓存。 了解RDD持久化前需要先了解什么是RDD?
其中有一个就是 - A list of dependencies on other RDDs(依赖关系)
intersection()交集 对源RDD和参数RDD求交集后返回一个新的RDD image.png 交集:只有3 案例演示 @Test def...
依样画葫芦娃 我们也许不知道怎么自定义一个分区,那么可以看看spark 自带的是怎么写的;如HashPartitioner
思考一个问题?map算子并没有指定分区,但是却是还是4个分区? 首先 map的数据来源于rdd1;rdd1指定了分区。
https://blog.csdn.net/zym1117/article/details/79532458
Master和Worker是Spark的守护进程、集群资源管理者,即Spark在特定模式下正常运行所必须的进程。
注意在 scala中 == 类似于 java 中的 equals;所以 != 就相当于对 equals 取反 打印
为了获取里面的数据,需要写成这样的形式e._2._2._2._1;开发时也许还知道各个._2 是什么,但是过一段时间,可能就忘了,此种方式出现的问题就是可读性极...
Set 特性 不重复、无序 不可变set 创建Set& apply方式创建 val set=Set[Int](1,2,3,4,5) 查看setApi 进入...
Map 集合 Scala中的Map和Java类似,也是一个散列表,它存储的内容也是键值对(key-value)映射,Scala中不可变的Map是有序的,可变的...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市