用户1483438

文章/答案/技术大牛

发布

LV4

发表了文章 2022-07-262022-07-26 21:55:50

Canal 安装

有两个很重要的文件第一个就是：canal.properties 第二个就是：example目录下的instance.properties 文件

用户1483438 2022-07-262022-07-26 21:55:50

面向对象编程、sql、数据库、云数据库 SQL Server

发表了文章 2022-07-262022-07-26 21:55:32

Canal 介绍

canal是阿里巴巴旗下的一款开源项目，纯Java开发。基于数据库增量日志解析，提供增量数据订阅&消费，目前主要支持了MySQL（也支持mariaDB）。 c...

用户1483438 2022-07-262022-07-26 21:55:32

云数据库 SQL Server、数据库、sql、kafka、spark

发表了文章 2022-07-262022-07-26 21:55:18

SparkSql之DataFrame

为了方便测试，单独把sparkSession 提出去，使用它 Junit的方式进行测试运行。

用户1483438 2022-07-262022-07-26 21:55:18

python、编程算法

发表了文章 2022-07-262022-07-26 21:55:07

Spark累加器（Accumulator）

累加器：分布式共享只写变量。（Executor和Executor之间不能读数据）累加器用来把Executor端变量信息聚合到Driver端。在Driver程...

用户1483438 2022-07-262022-07-26 21:55:07

编程算法、spark

发表了文章 2022-07-262022-07-26 21:54:25

SparkSql之编程方式

SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和HiveCo...

用户1483438 2022-07-262022-07-26 21:54:25

python、编程算法、sql、spark、hive

发表了文章 2022-05-092022-05-09 15:48:37

Action行动算子

在spark中，有两种算子，Transformation转换算子和 Action行动算子。Transformation转换算子在整个job任务中，都是一个懒加载...

用户1483438 2022-05-092022-05-09 15:48:37

mapreduce、css、python

发表了文章 2022-05-092022-05-09 15:47:46

数据读取与保存

Sequence文件 SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在Spar...

用户1483438 2022-05-092022-05-09 15:47:46

spark、编程算法、文件存储、hadoop、数据库

发表了文章 2022-05-062022-05-06 15:34:41

键值对RDD数据分区

所以主要了解HashPartitioner分区器，RangePartitioner分区器及自定义分区器。

用户1483438 2022-05-062022-05-06 15:34:41

文件存储、spark

发表了文章 2022-05-062022-05-06 15:33:53

RDD序列化

此时运行：会有问题吗？结果没有：其原因是因为x属于局部变量，可以直接进行序列化。而放到外部，那么就需要与SerializableRDD关联，序列化x变量前肯...

用户1483438 2022-05-062022-05-06 15:33:53

文件存储、spark、java

发表了文章 2022-04-282022-04-28 15:48:44

RDD持久化

所谓的持久化，就是将数据进行保存，避免数据丢失。RDD持久化并非将数据落盘保存，而是用作缓存。了解RDD持久化前需要先了解什么是RDD？

用户1483438 2022-04-282022-04-28 15:48:44

缓存、文件存储、大数据

发表了文章 2022-04-282022-04-28 15:47:44

RDD依赖关系

其中有一个就是 - A list of dependencies on other RDDs(依赖关系)

用户1483438 2022-04-282022-04-28 15:47:44

spark、编程算法、javascript

发表了文章 2022-04-272022-04-27 15:06:44

Transformation转换算子之双Value类型交互

intersection()交集对源RDD和参数RDD求交集后返回一个新的RDD image.png 交集：只有3 案例演示 @Test def...

用户1483438 2022-04-272022-04-27 15:06:44

intersection、key、partition、union、zip

发表了文章 2022-04-272022-04-27 15:06:35

Transformation转换算子之Key-Value类型

依样画葫芦娃我们也许不知道怎么自定义一个分区，那么可以看看spark 自带的是怎么写的；如HashPartitioner

用户1483438 2022-04-272022-04-27 15:06:35

mapreduce、文件存储、spark

发表了文章 2022-04-272022-04-27 15:06:10

Transformation转换算子之Value类型

思考一个问题？map算子并没有指定分区，但是却是还是4个分区？首先 map的数据来源于rdd1;rdd1指定了分区。

用户1483438 2022-04-272022-04-27 15:06:10

java、数据库、sql

发表了文章 2022-04-262022-04-26 15:06:54

SparkCore之RDD

https://blog.csdn.net/zym1117/article/details/79532458

用户1483438 2022-04-262022-04-26 15:06:53

spark、node.js、大数据、javascript

发表了文章 2022-04-262022-04-26 15:04:42

spark入门之集群角色

Master和Worker是Spark的守护进程、集群资源管理者，即Spark在特定模式下正常运行所必须的进程。

用户1483438 2022-04-262022-04-26 15:04:42

spark、yarn、node.js

发表了文章 2022-04-222022-04-22 16:35:56

scala(二十二) 异常(Exception)

注意在 scala中 == 类似于 java 中的 equals；所以 != 就相当于对 equals 取反打印

用户1483438 2022-04-222022-04-22 16:35:56

scala、java

发表了文章 2022-04-222022-04-22 16:35:48

scala(二十一) 模式匹配(match)

为了获取里面的数据，需要写成这样的形式e._2._2._2._1；开发时也许还知道各个._2 是什么，但是过一段时间，可能就忘了，此种方式出现的问题就是可读性极...

用户1483438 2022-04-222022-04-22 16:35:47

编程算法

发表了文章 2022-04-202022-04-20 15:30:07

scala(十六) Set

Set 特性不重复、无序不可变set 创建Set& apply方式创建 val set=Set[Int](1,2,3,4,5) 查看setApi 进入...

用户1483438 2022-04-202022-04-20 15:30:07

api

发表了文章 2022-04-202022-04-20 15:29:34

scala(十八) Map

Map 集合 Scala中的Map和Java类似，也是一个散列表，它存储的内容也是键值对（key-value）映射，Scala中不可变的Map是有序的，可变的...

用户1483438 2022-04-202022-04-20 15:29:34

scala、http

12 3 4 5 6 7 8...11 下一页

个人简介

暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2018-03-14

个人成就

获得 155 次赞同
文章被阅读 75.6K 次

关注了：1关注者：13