祝威廉-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

祝威廉

专栏成员

308

文章

212604

阅读量

45

订阅数

Byzer 内置数据湖基础

存储 html 对象存储

该文是 [Delta Lake 数据源](https://docs.byzer.org/#/byzer-lang/zh-cn/datasource/dw/delta_lake) 一个补充。

2022-12-07

2380

从图像标注开始，用 Byzer 加 Xtreme1 完成图像实例分割训练

数据湖对象存储存储 python json

要完整的支持深度学习，需要一个很长的 Pipeline，通常我们的工作起步于标注平台, 尽管Byzer 也可以作为标注平台的上游，比如对图片和视频做一个统一的处理（诸如缩放成统一大小等），然后再放到标注平台里。

2022-11-12

8570

MLSQL与JuiceFS在AI方向的整合畅享

sql python 对象存储存储

RespectM同学在文章[MLSQL集成JuiceFs](16 - MLSQL集成JuiceFs)中，已经详细的讲解了如何整合两者。丢一个配置文件到SPARK_HOME/conf以及启动时带上SDK Jar就可以完美在MLSQL访问各种对象存储和HDFS了，这非常酷。

2022-07-21

4300

让我们再探讨是【移动数据】还是【移动计算】

spark 大数据 sql 存储文件存储

第一件事，是Spark 3.0 开始重构shuffle部分，用以支持remote shuffle。这意味着我们终于可以为shuffle专门准备一个存储集群了，比如一个单独的HDFS之类的。这是Spark架构前进的一小步，也是业界开始朝计算和存储分离走了坚实的一步。计算和存储分离的好处我们就不多讲，而计算和存储的分离的前提是内网速度要足够快，所以也意味着内网速度已经基本达到要求了。通过这个我是想告诉大家，内网已经足够快。就像5G足够快，会带来什么，很快就会有结果。

2022-07-21

3920

Delta Lake的竞争对手Hudi（Alpha版）

Delta Lake肯定不是第一个数据湖产品。对于存储这块，CarbonData也一直有雄心。不过今天我要重点讲讲Delta Lake 和Hudi的对比。因为Hudi我仅限于基本的浏览了写入和读取相关的代码，理解上算不得成熟，所以这篇文章我加了限定词Alpha版，后续可能会Alpha01....Beta，当然最后肯定是没有标记，那就表示我觉得我的理解差不多了，文章可能定型了。

2022-07-21

3580

Delta的真正用处和价值，你可知道

开源 sql spark 存储

应该说，Delta是最近几年Databricks开源的最有价值的东西。Databricks这几年对外致力于AI,对内则努力给客户提供一站式分析处理平台。这个一站式的核心是，内核包含了流和批的真正统一，那什么才是真正的流和批的统一呢？

2019-05-14

8530

数据部门起步阶段需要建立数仓么？

数据库 sql 存储运维缓存

之前我写了一篇关于数据中台和数仓的关系的文章，里面理清了数仓和中台的关系。后面我了解到更通用的技术词汇去表达数据管理的两种方式：数据联邦和数据仓储。

2019-03-20

6770

数据部门如何All In AI

人工智能大数据存储编程算法

通常，大数据部门会花费很大的力气构建数据平台，而这个数据平台除了能让研发，算法，分析师等角色爽一些，从宏观角度很大的节省部门人力成本，提高效率以外，似乎对公司/其他业务部门并无一个直接的输出。这也是很多大数据部门领导非常焦虑的地方。

2018-08-27

3720

HBase缓存漫谈

hbase 缓存存储

上一次重度使用HBase已经是两年前了。HBase能够满足上面五个要求，所以用HBase作为画像体系的主要存储引擎便水到渠成。

2018-08-27

8050

让流动的数据结构化

数据结构存储 sql 数据处理机器学习

结构化数据加上一个支持schema变更的存储，加上一个高效易用的支持SQL的数据处理和查询的引擎，简直无所不能和极度高效。

2018-08-27

5030

流式数据Pipeline质量控制浅谈

以我们公司的实时带宽计算为例，就是一个长长的Pipeline,中间经过的组件其实是很多的，比如解析模块，指标拼接模块，累加器模块等，这些模块可能是独立部署，也可能是在一个系统中，它们根据业务需求会经常发生变更。

2018-08-27

5930

开源选型中的基因论

开源 zookeeper 存储

如果能通过上面的几条，我么可能就会采用该套技术了。然而这往往会导致很多误用。比如很多人就把zookeeper当存储用了，因为倒也满足上面的一些需求。

2018-08-27

2330

SparkES 多维分析引擎设计

spark es 2 存储分布式

其列式存储可以有效的支持高效的聚合类查询，譬如groupBy等操作，分布式存储则提升了处理的数据规模。

2018-08-27

9040

Spark 1.6 内存管理模型( Unified Memory Management)分析

新的内存模型是在这个Jira提出的，JIRA-10000，对应的设计文档在这：unified-memory-management。

2018-08-27

5320

大数据三重门

大数据存储机器学习分布式

人类实现了信息的存储，就像Time Machine一样，回到任意一个点，通过已有的数据重新构建过去的影像，也能够预测未来，模拟一个虚拟而准确的未来环境

2018-08-27

2030

Spark Streaming 数据产生与导入相关的内存分析

spark 存储数据处理

我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。

2018-08-27

4140

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态