腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
祝威廉
专栏成员
举报
308
文章
212604
阅读量
45
订阅数
订阅专栏
申请加入专栏
全部文章(308)
sql(105)
spark(71)
其他(68)
编程算法(42)
python(30)
api(25)
大数据(24)
机器学习(19)
数据库(17)
java(16)
存储(16)
scala(15)
深度学习(14)
开源(14)
人工智能(13)
json(12)
分布式(11)
html(10)
云数据库 SQL Server(10)
神经网络(9)
容器(9)
hbase(9)
网站(8)
http(8)
数据处理(8)
数据湖(8)
容器镜像服务(7)
yarn(7)
运维(7)
apache(6)
es 2(6)
hive(6)
jdbc(6)
https(6)
kafka(6)
对象存储(5)
负载均衡(5)
ide(5)
缓存(5)
网络安全(5)
微信(5)
tensorflow(4)
jar(4)
文件存储(4)
TDSQL MySQL 版(4)
推荐系统(4)
react(3)
node.js(3)
xml(3)
git(3)
github(3)
linux(3)
负载均衡缓存(3)
zookeeper(3)
markdown(3)
rpc(3)
数据分析(3)
commit(3)
javascript(2)
bash(2)
云数据库 Redis(2)
打包(2)
nginx(2)
bash 指令(2)
访问管理(2)
kubernetes(2)
shell(2)
jvm(2)
sql server(2)
数据结构(2)
系统架构(2)
parquet(2)
upsert(2)
部署(2)
官方文档(1)
自动驾驶(1)
c++(1)
php(1)
ruby(1)
硬件开发(1)
maven(1)
spring(1)
mapreduce(1)
mongodb(1)
电商(1)
企业(1)
云数据仓库 PostgreSQL(1)
自动化(1)
无人驾驶(1)
jdk(1)
面向对象编程(1)
线性回归(1)
keras(1)
cdn(1)
安全(1)
机器人(1)
openapi(1)
腾讯云开发者社区(1)
云计算(1)
任务调度(1)
特征工程(1)
sdk(1)
es(1)
allocation(1)
csv(1)
curl(1)
join(1)
mysql(1)
overwrite(1)
package(1)
pool(1)
rename(1)
tar(1)
工作(1)
模型(1)
数据(1)
索引(1)
研发(1)
搜索文章
搜索
搜索
关闭
Byzer 内置数据湖基础
存储
html
对象存储
该文是 [Delta Lake 数据源](https://docs.byzer.org/#/byzer-lang/zh-cn/datasource/dw/delta_lake) 一个补充。
用户2936994
2022-12-07
238
0
从图像标注开始,用 Byzer 加 Xtreme1 完成图像实例分割训练
数据湖
对象存储
存储
python
json
要完整的支持深度学习,需要一个很长的 Pipeline,通常我们的工作起步于标注平台, 尽管Byzer 也可以作为标注平台的上游,比如对图片和视频做一个统一的处理(诸如缩放成统一大小等),然后再放到标注平台里。
用户2936994
2022-11-12
857
0
MLSQL与JuiceFS在AI方向的整合畅享
sql
python
对象存储
存储
RespectM同学在文章[MLSQL集成JuiceFs](16 - MLSQL集成JuiceFs)中,已经详细的讲解了如何整合两者。丢一个配置文件到SPARK_HOME/conf以及启动时带上SDK Jar就可以完美在MLSQL访问各种对象存储和HDFS了,这非常酷。
用户2936994
2022-07-21
430
0
让我们再探讨是【移动数据】还是【移动计算】
spark
大数据
sql
存储
文件存储
第一件事,是Spark 3.0 开始重构shuffle部分,用以支持remote shuffle。这意味着我们终于可以为shuffle专门准备一个存储集群了,比如一个单独的HDFS之类的。这是Spark架构前进的一小步,也是业界开始朝计算和存储分离走了坚实的一步。计算和存储分离的好处我们就不多讲,而计算和存储的分离的前提是内网速度要足够快,所以也意味着内网速度已经基本达到要求了。通过这个我是想告诉大家,内网已经足够快。就像5G足够快,会带来什么,很快就会有结果。
用户2936994
2022-07-21
392
0
Delta Lake的竞争对手Hudi(Alpha版)
存储
spark
Delta Lake肯定不是第一个数据湖产品。对于存储这块,CarbonData也一直有雄心。不过今天我要重点讲讲Delta Lake 和Hudi的对比。因为Hudi我仅限于基本的浏览了写入和读取相关的代码,理解上算不得成熟,所以这篇文章我加了限定词Alpha版,后续可能会Alpha01....Beta,当然最后肯定是没有标记,那就表示我觉得我的理解差不多了,文章可能定型了。
用户2936994
2022-07-21
358
0
Delta的真正用处和价值,你可知道
开源
sql
spark
存储
应该说,Delta是最近几年Databricks开源的最有价值的东西。Databricks这几年对外致力于AI,对内则努力给客户提供一站式分析处理平台。这个一站式的核心是,内核包含了流和批的真正统一,那什么才是真正的流和批的统一呢?
用户2936994
2019-05-14
853
0
数据部门起步阶段需要建立数仓么?
数据库
sql
存储
运维
缓存
之前我写了一篇关于数据中台和数仓的关系 的文章,里面理清了数仓和中台的关系。后面我了解到更通用的技术词汇去表达数据管理的两种方式: 数据联邦和数据仓储。
用户2936994
2019-03-20
677
0
数据部门如何All In AI
人工智能
大数据
存储
编程算法
通常,大数据部门会花费很大的力气构建数据平台,而这个数据平台除了能让研发,算法,分析师等角色爽一些,从宏观角度很大的节省部门人力成本,提高效率以外,似乎对公司/其他业务部门并无一个直接的输出。这也是很多大数据部门领导非常焦虑的地方。
用户2936994
2018-08-27
372
0
HBase缓存漫谈
hbase
缓存
存储
上一次重度使用HBase已经是两年前了。HBase能够满足上面五个要求,所以用HBase作为画像体系的主要存储引擎便水到渠成。
用户2936994
2018-08-27
805
0
让流动的数据结构化
数据结构
存储
sql
数据处理
机器学习
结构化数据加上一个支持schema变更的存储,加上一个高效易用的支持SQL的数据处理和查询的引擎,简直无所不能和极度高效。
用户2936994
2018-08-27
503
0
流式数据Pipeline质量控制浅谈
存储
以我们公司的实时带宽计算为例,就是一个长长的Pipeline,中间经过的组件其实是很多的,比如解析模块,指标拼接模块,累加器模块等,这些模块可能是独立部署,也可能是在一个系统中,它们根据业务需求会经常发生变更。
用户2936994
2018-08-27
593
0
开源选型中的基因论
开源
zookeeper
存储
如果能通过上面的几条,我么可能就会采用该套技术了。然而这往往会导致很多误用。比如很多人就把zookeeper当存储用了,因为倒也满足上面的一些需求。
用户2936994
2018-08-27
233
0
SparkES 多维分析引擎设计
spark
es 2
存储
分布式
其列式存储可以有效的支持高效的聚合类查询,譬如groupBy等操作,分布式存储则提升了处理的数据规模。
用户2936994
2018-08-27
904
0
Spark 1.6 内存管理模型( Unified Memory Management)分析
spark
存储
新的内存模型是在这个Jira提出的,JIRA-10000,对应的设计文档在这:unified-memory-management。
用户2936994
2018-08-27
532
0
大数据三重门
大数据
存储
机器学习
分布式
人类实现了信息的存储,就像Time Machine一样,回到任意一个点,通过已有的数据重新构建过去的影像,也能够预测未来,模拟一个虚拟而准确的未来环境
用户2936994
2018-08-27
203
0
Spark Streaming 数据产生与导入相关的内存分析
spark
存储
数据处理
我这篇文章会分几个点来描述Spark Streaming 的Receiver在内存方面的表现。
用户2936994
2018-08-27
414
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档