首页
学习
活动
专区
工具
TVP
发布

祝威廉

专栏作者
308
文章
203588
阅读量
44
订阅数
Byzer 内置数据湖基础
该文是 [Delta Lake 数据源](https://docs.byzer.org/#/byzer-lang/zh-cn/datasource/dw/delta_lake) 一个补充。
用户2936994
2022-12-07
2120
从图像标注开始,用 Byzer 加 Xtreme1 完成图像实例分割训练
要完整的支持深度学习,需要一个很长的 Pipeline,通常我们的工作起步于标注平台, 尽管Byzer 也可以作为标注平台的上游,比如对图片和视频做一个统一的处理(诸如缩放成统一大小等),然后再放到标注平台里。
用户2936994
2022-11-12
6360
MLSQL与JuiceFS在AI方向的整合畅享
RespectM同学在文章[MLSQL集成JuiceFs](16 - MLSQL集成JuiceFs)中,已经详细的讲解了如何整合两者。丢一个配置文件到SPARK_HOME/conf以及启动时带上SDK Jar就可以完美在MLSQL访问各种对象存储和HDFS了,这非常酷。
用户2936994
2022-07-21
4130
让我们再探讨是【移动数据】还是【移动计算】
第一件事,是Spark 3.0 开始重构shuffle部分,用以支持remote shuffle。这意味着我们终于可以为shuffle专门准备一个存储集群了,比如一个单独的HDFS之类的。这是Spark架构前进的一小步,也是业界开始朝计算和存储分离走了坚实的一步。计算和存储分离的好处我们就不多讲,而计算和存储的分离的前提是内网速度要足够快,所以也意味着内网速度已经基本达到要求了。通过这个我是想告诉大家,内网已经足够快。就像5G足够快,会带来什么,很快就会有结果。
用户2936994
2022-07-21
3710
Delta Lake的竞争对手Hudi(Alpha版)
Delta Lake肯定不是第一个数据湖产品。对于存储这块,CarbonData也一直有雄心。不过今天我要重点讲讲Delta Lake 和Hudi的对比。因为Hudi我仅限于基本的浏览了写入和读取相关的代码,理解上算不得成熟,所以这篇文章我加了限定词Alpha版,后续可能会Alpha01....Beta,当然最后肯定是没有标记,那就表示我觉得我的理解差不多了,文章可能定型了。
用户2936994
2022-07-21
3400
Delta的真正用处和价值,你可知道
应该说,Delta是最近几年Databricks开源的最有价值的东西。Databricks这几年对外致力于AI,对内则努力给客户提供一站式分析处理平台。这个一站式的核心是,内核包含了流和批的真正统一,那什么才是真正的流和批的统一呢?
用户2936994
2019-05-14
7990
数据部门起步阶段需要建立数仓么?
之前我写了一篇关于数据中台和数仓的关系 的文章,里面理清了数仓和中台的关系。后面我了解到更通用的技术词汇去表达数据管理的两种方式: 数据联邦和数据仓储。
用户2936994
2019-03-20
6570
数据部门如何All In AI
通常,大数据部门会花费很大的力气构建数据平台,而这个数据平台除了能让研发,算法,分析师等角色爽一些,从宏观角度很大的节省部门人力成本,提高效率以外,似乎对公司/其他业务部门并无一个直接的输出。这也是很多大数据部门领导非常焦虑的地方。
用户2936994
2018-08-27
3600
HBase缓存漫谈
上一次重度使用HBase已经是两年前了。HBase能够满足上面五个要求,所以用HBase作为画像体系的主要存储引擎便水到渠成。
用户2936994
2018-08-27
7470
让流动的数据结构化
结构化数据加上一个支持schema变更的存储,加上一个高效易用的支持SQL的数据处理和查询的引擎,简直无所不能和极度高效。
用户2936994
2018-08-27
4920
流式数据Pipeline质量控制浅谈
以我们公司的实时带宽计算为例,就是一个长长的Pipeline,中间经过的组件其实是很多的,比如解析模块,指标拼接模块,累加器模块等,这些模块可能是独立部署,也可能是在一个系统中,它们根据业务需求会经常发生变更。
用户2936994
2018-08-27
5740
开源选型中的基因论
如果能通过上面的几条,我么可能就会采用该套技术了。然而这往往会导致很多误用。比如很多人就把zookeeper当存储用了,因为倒也满足上面的一些需求。
用户2936994
2018-08-27
2230
SparkES 多维分析引擎设计
其列式存储可以有效的支持高效的聚合类查询,譬如groupBy等操作,分布式存储则提升了处理的数据规模。
用户2936994
2018-08-27
8820
Spark 1.6 内存管理模型( Unified Memory Management)分析
新的内存模型是在这个Jira提出的,JIRA-10000,对应的设计文档在这:unified-memory-management。
用户2936994
2018-08-27
5100
大数据三重门
人类实现了信息的存储,就像Time Machine一样,回到任意一个点,通过已有的数据重新构建过去的影像,也能够预测未来,模拟一个虚拟而准确的未来环境
用户2936994
2018-08-27
1920
Spark Streaming 数据产生与导入相关的内存分析
我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。
用户2936994
2018-08-27
3970
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档