首页
学习
活动
专区
工具
TVP
发布

祝威廉

专栏作者
308
文章
202201
阅读量
44
订阅数
是时候改变你数仓的增量同步方案了
经过一段时间的演化,spark-binlog,delta-plus慢慢进入正轨。spark-binlog可以将MySQL binlog作为标准的Spark数据源来使用,目前支持insert/update/delete 三种事件的捕捉。 delta-plus则是对Delta Lake的一个增强库,譬如在Delta Plus里实现了将binlog replay进Detla表,从而保证Delta表和数据库表接近实时同步。除此之外,detla-plus还集成了譬如布隆过滤器等来提升数据更新速度,解决更新导致的文件数不可控问题等等。更多特性可参考我写的专栏。
用户2936994
2022-07-21
4600
Byzer JDBC 数据源使用指南
Byzer-lang 使用 JDBC 数据源非常简单。目前Byzer-lang内置了 MySQL 的驱动,所以可以直接使用如下代码访问 MySQL:
用户2936994
2022-05-08
6320
数据SCT定律:存储,计算,时间
其实没有SCT定律,这个是我根据分布式CAP定律瞎造的。不过呢,从大数据这个行业来说,我们始终都是在存储,计算和时间进行权衡,博弈以及突破。某种程度上来说,当拥有其中两者,可能很难兼顾第三者。
用户2936994
2019-07-18
9450
MLSQL Cluster 路由策略
MLSQL Cluster 具备多MLSQL Engine 实例管理功能,实现负载均衡,多业务切分等等功能。
用户2936994
2019-03-22
5800
手动安装和启动MLSQL三套件
创建MySQL数据库,根据 src/main/resources/db.sql创建对应的库表。数据库名字为mslql_cluster.
用户2936994
2019-03-20
9830
MLSQL全系Docker化
如何让用户最快的去体验MLSQL,是我们一直追求的。按v1.1.7的发布路线图,我们在这个版本里会完成所有组件的的docker化,未来我们很快也会提供云端功能的体验,让大家在MLSQL官网/控制台迅速将MLSQL集群部署到自己的阿里云账号上。
用户2936994
2019-02-25
5110
MLSQL v1.1.6 版本发布
我们很高兴 MLSQL v1.1.6版本发布。在这半个月的快速迭代中,我们取得了丰硕的成果:
用户2936994
2018-12-27
3350
StreamingPro 支持类SQL DSL
受spark sql在喜马拉雅的使用之xql 这篇文章影响,我发现类似下面这种语法是极好的:
用户2936994
2018-08-27
4790
Spark 如何写入HBase/Redis/MySQL/Kafka
一个partition 对应一个task,一个task 必定存在于一个Executor,一个Executor 对应一个JVM.
用户2936994
2018-08-27
6080
Spark Streaming 妙用之实现工作流调度器
其他的都是基础设施。按照Transfomer架构的设计理念,我们应该可以找到一个Estimator ,作为我们的基础设施,我们只要关注上面两点即可,不需要为部署,高可用,稳定等发愁。同时我们也希望譬如WebUI等工作不是从头开始,而是按部就班添加新功即可。所以有了Estimator,我们只要做三点:
用户2936994
2018-08-27
3560
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档