首页
学习
活动
专区
工具
TVP
发布

祝威廉

专栏作者
308
文章
203140
阅读量
44
订阅数
为什么说MLSQL是一个面向大数据和AI的语言
经过几个月的折腾,MLSQL 1.4.0版终于发布了。然后呢,我们也在这个版本正式对MLSQL做了新的定位,从原来的 "Unify BigData and Machine Learning" 转成了 "The Programming Language Designed For Big Data and AI"。 更多介绍可以参看 A Programming Language Designed For Big Data and AI
用户2936994
2022-04-02
4390
FUSE(FileSystem in User Space) 对算法的价值
MLSQL 有一段时间致力于融合大数据平台和算法平台,实现 【同一个平台,同一个语言。】。事实上我们通过各种方式做到了,通过整合Spark ML,Spark ML周边,以及Python的支持(环境使用Conda)来完成,但是依然不够完美。为什么呢?
用户2936994
2019-04-18
9500
利用Spark Streaming实现分布式采集系统
而Spark Streaming 在上层概念上,完美融合了批量计算和流式计算,让他们你中有我,我中有你,这种设计使得Spark Streaming 作为流式计算的一个载体,同时也能作为其他一些需要分布式架构的问题提供解决方案。
用户2936994
2018-08-27
7270
Spark会把数据都载入到内存么?
很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。
用户2936994
2018-08-27
8630
快速开发基于Yarn的分布式应用
mammuthus-yarn-client使得基于Yarn开发分布式应用变得非常容易,基本蔽掉了Yarn的API。 我们后面会把mammuthus-yarn-client 缩写为MYC。
用户2936994
2018-08-27
9550
SparkES 多维分析引擎设计
其列式存储可以有效的支持高效的聚合类查询,譬如groupBy等操作,分布式存储则提升了处理的数据规模。
用户2936994
2018-08-27
8820
Spark Streaming 1.6 流式状态管理分析
在流式计算中,数据是持续不断来的,有时候我们要对一些数据做跨周期(Duration)的统计,这个时候就不得不维护状态了。而状态管理对Spark 的 RDD模型是个挑战,因为在spark里,任何数据集都需要通过RDD来呈现,而RDD 的定义是一个不变的分布式集合。在状态管理中,比如Spark Streaming中的word-count 就涉及到更新原有的记录,比如在batch 1 中 A 出现1次,batch 2中出现3次,则总共出现了4次。这里就有两种实现:
用户2936994
2018-08-27
4590
如何基于Yarn开发你的分布式程序
这篇文章不会具体教你如何使用Yarn的API,但是会教你我实践过后的一些经验。接下来的内容会探讨以下两个主题:
用户2936994
2018-08-27
6190
大数据三重门
人类实现了信息的存储,就像Time Machine一样,回到任意一个点,通过已有的数据重新构建过去的影像,也能够预测未来,模拟一个虚拟而准确的未来环境
用户2936994
2018-08-27
1920
Spark Sort Based Shuffle内存分析
目前Sort Based Shuffle 是作为默认Shuffle类型的。Shuffle 是一个很复杂的过程,任何一个环节都足够写一篇文章。所以这里,我尝试换个方式,从实用的角度出发,让读者有两方面的收获:
用户2936994
2018-08-27
1K0
猛犸系统
10.猛犸也支持通过分布式Shell引擎支持传统的服务器模式。并且资源模型和传统的服务器模式同时并存,解决各自擅长的问题
用户2936994
2018-08-27
9860
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档