首页
学习
活动
专区
工具
TVP
发布

祝威廉

专栏作者
308
文章
203576
阅读量
44
订阅数
玄武(Xuanwu)给 白泽(Byzer) 插上云原生的翅膀
之前我开发 Byzer-helm 的项目就觉得,要是 Kubernetes 上也有个类似 CDH 的管理工具就好了, 我可以通过界面的方式安装大数据/AI 类的应用。现在,这个产品有了,就是云原生数据底座玄武里的 Xuanwu Manager 。该工具未来会内置主流的大数据应用,用户也可以根据 Xuanwu Manager 的标准发布自己的应用。这样上面的租户/用户就可以一键启动已经发布的大数据应用了。
用户2936994
2023-03-01
2760
如何三分钟部署好生产可用 Byzer
Byzer 提供了Docker,发型包,桌面版等各种部署方式,有的时候会让人乱花渐欲迷人眼,对新手而言会有不知所措。
用户2936994
2023-03-01
5440
AI模型注册成MLSQL UDF函数示例
训练一个Tensorflow模型 下面的代码仅支持Console notebook模式下运行 首先,准备minist数据集 include lib.`github.com/allwefantasy/lib-core` where force="true" and libMirror="gitee.com" and -- proxy configuration. alias="libCore"; -- dump minist data to object storage include
用户2936994
2022-07-21
2700
让我们再探讨是【移动数据】还是【移动计算】
第一件事,是Spark 3.0 开始重构shuffle部分,用以支持remote shuffle。这意味着我们终于可以为shuffle专门准备一个存储集群了,比如一个单独的HDFS之类的。这是Spark架构前进的一小步,也是业界开始朝计算和存储分离走了坚实的一步。计算和存储分离的好处我们就不多讲,而计算和存储的分离的前提是内网速度要足够快,所以也意味着内网速度已经基本达到要求了。通过这个我是想告诉大家,内网已经足够快。就像5G足够快,会带来什么,很快就会有结果。
用户2936994
2022-07-21
3710
如何实现Spark过载保护
前言 因为我司将Spark大规模按Service模式使用,也就是Spark实例大多数是7*24小时服务的,然后接受各种ad-hoc查询。通常最难受的就是被bad query 给拖死了,然后导致服务不可
用户2936994
2022-07-21
4120
Ray进程布局一览
可能标题有点让人困惑,其实我是想知道,在一个标准的ray集群,到底都有哪些进程存在。比如spark运行在yarn上,那么整个物理集群上会有如下几类进程:
用户2936994
2022-07-21
4970
Spark整合Ray思路漫谈(2)
首先,大家可以理解为k8s已经解决一切了,我们spark,ray都跑在K8s上。但是,如果我们希望一个spark 是实例多进程跑的时候,我们并不希望是像传统的那种方式,所有的节点都跑在K8s上,而是将executor部分放到yarn cluster. 在我们的架构里,spark driver 是一个应用,我们可以启动多个pod从而获得多个spark driver实例,对外提供负载均衡,roll upgrade/restart 等功能。也就是k8s应该是面向应用的。但是复杂的计算,我们依然希望留给Yarn,尤其是还涉及到数据本地性,然计算和存储放到一起(yarn和HDFS通常是在一起的),避免k8s和HDFS有大量数据交换。
用户2936994
2022-07-21
7990
是时候改变你数仓的增量同步方案了
经过一段时间的演化,spark-binlog,delta-plus慢慢进入正轨。spark-binlog可以将MySQL binlog作为标准的Spark数据源来使用,目前支持insert/update/delete 三种事件的捕捉。 delta-plus则是对Delta Lake的一个增强库,譬如在Delta Plus里实现了将binlog replay进Detla表,从而保证Delta表和数据库表接近实时同步。除此之外,detla-plus还集成了譬如布隆过滤器等来提升数据更新速度,解决更新导致的文件数不可控问题等等。更多特性可参考我写的专栏。
用户2936994
2022-07-21
4640
Delta Lake为什么不存在Hive覆盖写的问题
当你使用Spark对hive表进行Overwrite的时候,基本流程是删除metastore的表信息,删除数据,写_temp目录,移动_temp目录数据,最后写入表信息(我描述的这个流程不一定完全对,熟悉hive的大大欢迎指正)。这个过程可能很漫长,比如我们就遇到了当时spark进程正在写_temp目录数据,结果就这个时候Spark被异常杀死。当Spark进程启动后再次尝试时,就会报错:
用户2936994
2022-07-21
2660
Delta Lake的竞争对手Hudi(Alpha版)
Delta Lake肯定不是第一个数据湖产品。对于存储这块,CarbonData也一直有雄心。不过今天我要重点讲讲Delta Lake 和Hudi的对比。因为Hudi我仅限于基本的浏览了写入和读取相关的代码,理解上算不得成熟,所以这篇文章我加了限定词Alpha版,后续可能会Alpha01....Beta,当然最后肯定是没有标记,那就表示我觉得我的理解差不多了,文章可能定型了。
用户2936994
2022-07-21
3400
Byzer 多租户支持指南
用户可能通过 Byzer 的上层应用诸如 Notebook 进行任务的提交,任务会通过 Byzer Router 完成路由转发。
用户2936994
2022-05-08
8050
SQL智能代码补全引擎【sql-code-intelligence】介绍
sql-code-intelligence 支持标准的Spark SQL补全,也支持[MLSQL](allwefantasy/mlsql)语法补全。
用户2936994
2022-04-25
1.1K0
认识 Delta Lake
17,18是计算引擎火热的两年,19年已然是红海了。计算引擎中的王者是Spark,综合指标最好,生态也好,当其他引擎还在ETL,交互查询,流上厮杀时,Spark已经在AI领域越走越远。
用户2936994
2022-04-25
6610
MLSQL的前生后世
三年前我做MLSQL时,只是希望它能够用配置化脚本完成ETL(批和流)流程。比如一个典型的流式程序大概长这个样子:
用户2936994
2022-04-25
3190
Delta 如何解决并发写冲突(乐观锁)
首先,delta不存在读写冲突。原因是因为在Delta中写不影响读。那为什么Delta写不影响读呢?很简单,delta能够保持版本,而且版本随着写入不断递增,之前的版本不会有变化。这意味着你读的那一瞬间,后面有什么新写入,你肯定是看不到的,后面有什么删除,也不会对你有影响。
用户2936994
2022-04-02
6340
2021年教你尝鲜 MLSQL 的N种方式
如果你是个急性子,那么你可以通过在 mlsql.tech 上注册一个账户就可以体验了。这篇文章里有一个快速体验的章节,教大家怎么注册。
用户2936994
2022-01-07
2160
Introducing Spark-Kafka integration for realtime Kafka SQL queries
Apache Kafka has been all the rage for the key join of the data pipeline. But in most cases, we only treat Kafka as a stream source or a message queue. This means if you wanna do some AdHoc query, you need to sync the data to HDFS or other storage firstly.
用户2936994
2019-07-28
4420
数据SCT定律:存储,计算,时间
其实没有SCT定律,这个是我根据分布式CAP定律瞎造的。不过呢,从大数据这个行业来说,我们始终都是在存储,计算和时间进行权衡,博弈以及突破。某种程度上来说,当拥有其中两者,可能很难兼顾第三者。
用户2936994
2019-07-18
9510
为 Delta 新增 Upsert(Merge)功能
今天花了一早上以及午休时间,终于把delta的Upsert功能做完了。加上上周周四做的Delta Compaction支持,我想要的功能基本就都有了。
用户2936994
2019-06-11
8930
Delta的真正用处和价值,你可知道
应该说,Delta是最近几年Databricks开源的最有价值的东西。Databricks这几年对外致力于AI,对内则努力给客户提供一站式分析处理平台。这个一站式的核心是,内核包含了流和批的真正统一,那什么才是真正的流和批的统一呢?
用户2936994
2019-05-14
7990
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档