首页
学习
活动
专区
工具
TVP
发布

祝威廉

专栏作者
308
文章
201798
阅读量
44
订阅数
MLSQL Stack 1.5.0 版本发布
1.5.0好像是MLSQL历时最长的一个版本。从九月初份到一月初,四个多月时间。这四个月搞出了很多大事情。这个版本,经过很多的用户实际的使用反馈(包括一些金融公司也有在使用),已经很稳定了,可以进入生产环境中使用。
用户2936994
2022-07-21
2180
Delta Lake为什么不存在Hive覆盖写的问题
当你使用Spark对hive表进行Overwrite的时候,基本流程是删除metastore的表信息,删除数据,写_temp目录,移动_temp目录数据,最后写入表信息(我描述的这个流程不一定完全对,熟悉hive的大大欢迎指正)。这个过程可能很漫长,比如我们就遇到了当时spark进程正在写_temp目录数据,结果就这个时候Spark被异常杀死。当Spark进程启动后再次尝试时,就会报错:
用户2936994
2022-07-21
2630
认识 Delta Lake
17,18是计算引擎火热的两年,19年已然是红海了。计算引擎中的王者是Spark,综合指标最好,生态也好,当其他引擎还在ETL,交互查询,流上厮杀时,Spark已经在AI领域越走越远。
用户2936994
2022-04-25
6500
MLSQL v1.2.0正式版发布
MLSQL v1.2.0发布时间距离上个版本v1.7.1.1 已经有接近3个月了。这次我们跳过了v1.1.8/v1.1.9 是因为我们会认为v1.2.0能作为第一个稳定版本(主要是MLSQL Engine)。在后续的v1.3.0版本里,MLSQL Engine的目标以Stable为核心,同时进一步加强机器学习相关的能力。 MLSQL Cluster/MLSQL Engine则会进一步快速迭代,用于直接满足业务的交互和管理需求,同时逼近数据中台的目标。
用户2936994
2019-04-22
3800
MLSQL 编译时权限控制
权限控制,对于MLSQL而言的重要程度可以说是生命线。 MLSQL需要面对各式各样的资源访问,比如MySQL, Oracle,HDFS, Hive,Kafka,Sorl,ElasticSearch,Redis,API,Web等等,不同用户对这些数据源(以及表,列)的权限是不一样的。
用户2936994
2019-03-22
6640
SQL脚本实现算法模型的训练,预测
搜索团队正好需要计算一些词汇的相似性,这个用Word2Vec是很方便的。于是我立马安排算法团队帮个忙弄下。但回头想想,因为这么点事,打断了算法手头的工作,这简直不能忍。
用户2936994
2018-08-27
1K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档