腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
祝威廉
专栏成员
举报
308
文章
212478
阅读量
45
订阅数
订阅专栏
申请加入专栏
全部文章(308)
sql(105)
spark(71)
其他(68)
编程算法(42)
python(30)
api(25)
大数据(24)
机器学习(19)
数据库(17)
java(16)
存储(16)
scala(15)
深度学习(14)
开源(14)
人工智能(13)
json(12)
分布式(11)
html(10)
云数据库 SQL Server(10)
神经网络(9)
容器(9)
hbase(9)
网站(8)
http(8)
数据处理(8)
数据湖(8)
容器镜像服务(7)
yarn(7)
运维(7)
apache(6)
es 2(6)
hive(6)
jdbc(6)
https(6)
kafka(6)
对象存储(5)
负载均衡(5)
ide(5)
缓存(5)
网络安全(5)
微信(5)
tensorflow(4)
jar(4)
文件存储(4)
TDSQL MySQL 版(4)
推荐系统(4)
react(3)
node.js(3)
xml(3)
git(3)
github(3)
linux(3)
负载均衡缓存(3)
zookeeper(3)
markdown(3)
rpc(3)
数据分析(3)
commit(3)
javascript(2)
bash(2)
云数据库 Redis(2)
打包(2)
nginx(2)
bash 指令(2)
访问管理(2)
kubernetes(2)
shell(2)
jvm(2)
sql server(2)
数据结构(2)
系统架构(2)
parquet(2)
upsert(2)
部署(2)
官方文档(1)
自动驾驶(1)
c++(1)
php(1)
ruby(1)
硬件开发(1)
maven(1)
spring(1)
mapreduce(1)
mongodb(1)
电商(1)
企业(1)
云数据仓库 PostgreSQL(1)
自动化(1)
无人驾驶(1)
jdk(1)
面向对象编程(1)
线性回归(1)
keras(1)
cdn(1)
安全(1)
机器人(1)
openapi(1)
腾讯云开发者社区(1)
云计算(1)
任务调度(1)
特征工程(1)
sdk(1)
es(1)
allocation(1)
csv(1)
curl(1)
join(1)
mysql(1)
overwrite(1)
package(1)
pool(1)
rename(1)
tar(1)
工作(1)
模型(1)
数据(1)
索引(1)
研发(1)
搜索文章
搜索
搜索
关闭
为什么说MLSQL是一个面向大数据和AI的语言
sql
分布式
大数据
python
机器学习
经过几个月的折腾,MLSQL 1.4.0版终于发布了。然后呢,我们也在这个版本正式对MLSQL做了新的定位,从原来的 "Unify BigData and Machine Learning" 转成了 "The Programming Language Designed For Big Data and AI"。 更多介绍可以参看 A Programming Language Designed For Big Data and AI
用户2936994
2022-04-02
496
0
FUSE(FileSystem in User Space) 对算法的价值
编程算法
分布式
缓存
数据处理
api
MLSQL 有一段时间致力于融合大数据平台和算法平台,实现 【同一个平台,同一个语言。】。事实上我们通过各种方式做到了,通过整合Spark ML,Spark ML周边,以及Python的支持(环境使用Conda)来完成,但是依然不够完美。为什么呢?
用户2936994
2019-04-18
987
0
利用Spark Streaming实现分布式采集系统
spark
分布式
微信
而Spark Streaming 在上层概念上,完美融合了批量计算和流式计算,让他们你中有我,我中有你,这种设计使得Spark Streaming 作为流式计算的一个载体,同时也能作为其他一些需要分布式架构的问题提供解决方案。
用户2936994
2018-08-27
762
0
Spark会把数据都载入到内存么?
spark
分布式
很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。
用户2936994
2018-08-27
914
0
快速开发基于Yarn的分布式应用
yarn
分布式
api
容器
spark
mammuthus-yarn-client使得基于Yarn开发分布式应用变得非常容易,基本蔽掉了Yarn的API。 我们后面会把mammuthus-yarn-client 缩写为MYC。
用户2936994
2018-08-27
983
0
SparkES 多维分析引擎设计
spark
es 2
存储
分布式
其列式存储可以有效的支持高效的聚合类查询,譬如groupBy等操作,分布式存储则提升了处理的数据规模。
用户2936994
2018-08-27
904
0
Spark Streaming 1.6 流式状态管理分析
spark
分布式
在流式计算中,数据是持续不断来的,有时候我们要对一些数据做跨周期(Duration)的统计,这个时候就不得不维护状态了。而状态管理对Spark 的 RDD模型是个挑战,因为在spark里,任何数据集都需要通过RDD来呈现,而RDD 的定义是一个不变的分布式集合。在状态管理中,比如Spark Streaming中的word-count 就涉及到更新原有的记录,比如在batch 1 中 A 出现1次,batch 2中出现3次,则总共出现了4次。这里就有两种实现:
用户2936994
2018-08-27
483
0
如何基于Yarn开发你的分布式程序
yarn
分布式
容器
api
这篇文章不会具体教你如何使用Yarn的API,但是会教你我实践过后的一些经验。接下来的内容会探讨以下两个主题:
用户2936994
2018-08-27
632
0
大数据三重门
大数据
存储
机器学习
分布式
人类实现了信息的存储,就像Time Machine一样,回到任意一个点,通过已有的数据重新构建过去的影像,也能够预测未来,模拟一个虚拟而准确的未来环境
用户2936994
2018-08-27
203
0
Spark Sort Based Shuffle内存分析
spark
分布式
mapreduce
目前Sort Based Shuffle 是作为默认Shuffle类型的。Shuffle 是一个很复杂的过程,任何一个环节都足够写一篇文章。所以这里,我尝试换个方式,从实用的角度出发,让读者有两方面的收获:
用户2936994
2018-08-27
1.1K
0
猛犸系统
分布式
容器
zookeeper
10.猛犸也支持通过分布式Shell引擎支持传统的服务器模式。并且资源模型和传统的服务器模式同时并存,解决各自擅长的问题
用户2936994
2018-08-27
1.1K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档