首页
学习
活动
专区
工具
TVP
发布

祝威廉

专栏作者
308
文章
202306
阅读量
44
订阅数
大数据平台和AI平台应该如何整合
大数据和AI两者最核心的部分都是数据。大数据的主要工作是对数据进行各种转换和存储。而AI的主要工作是学习数据并且得出模型。 AI天然需要大数据的基础,因为AI需要各种形态的数据,而我们得到这些形态的数据,必然离不开大数据。就此而言,他们两个合在一起,才是一个完整的工作流。
用户2936994
2022-07-21
1K0
谈在全场景下构建 Modern Data Stack
之前老板和我提到了国外的 Modern Data Stack 概念。三个字字字玑珠:
用户2936994
2022-04-25
4350
FUSE(FileSystem in User Space) 对算法的价值
MLSQL 有一段时间致力于融合大数据平台和算法平台,实现 【同一个平台,同一个语言。】。事实上我们通过各种方式做到了,通过整合Spark ML,Spark ML周边,以及Python的支持(环境使用Conda)来完成,但是依然不够完美。为什么呢?
用户2936994
2019-04-18
9440
SQL还是那个SQL么?
前言 今天MLSQL群里有个小伙伴问到,能把Spark, Flink 这些框架运行在黑莓上么? 我回答道:可以作为一个内置SQL计算引擎嵌入(不是数据库),其他可能没啥用了。 不过这又引起了我的另外
用户2936994
2018-12-12
7890
【短文】Spark危机与机遇杂谈
昨天发了一篇文章Spark团队新作MLFlow 解决了什么问题 描述了我对MLFlow的一些看法,现在想来,Spark团队是非常聪明的,AI同学都有自己的社区,自己的生态,Spark则是在工程研发群体具有很大的影响力,而在AI领域并没有太大号召力。所以它其实是没办法通过一个颠覆性的东西去让AI同学转移过来的,而MLFlow并没有改变AI同学的原有习惯和流程,他提供了一些辅助工具和标准,解决了一些痛点,慢慢渗透,从而实现慢慢转型,当然,最后也完全可能也掀不起什么波澜。
用户2936994
2018-08-27
2990
让流动的数据结构化
结构化数据加上一个支持schema变更的存储,加上一个高效易用的支持SQL的数据处理和查询的引擎,简直无所不能和极度高效。
用户2936994
2018-08-27
4910
Spark Streaming + Spark SQL 实现配置化ETL流程
通常而言,你可能会因为要走完上面的流程而构建了一个很大的程序,比如一个main方法里上百行代码,虽然在开发小功能上足够便利,但是复用度更方面是不够的,而且不利于协作,所以需要一个更高层的开发包提供支持。
用户2936994
2018-08-27
1K0
Spark Streaming 数据产生与导入相关的内存分析
我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。
用户2936994
2018-08-27
3950
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档