首页
学习
活动
专区
工具
TVP
发布

祝威廉

专栏作者
308
文章
202340
阅读量
44
订阅数
Byzer + OpenMLDB, SQL Boy 也能玩好工业级机器学习
其实,原先 Byzer 就已经可以通过几乎不需要编程就能完成整个机器学习的Pipeline,从数据加载,清洗,特征工程,模型训练对外提供端到端的 API 服务。具体的能力可以参考这篇文章: Byzer 机器学习最简教程(无需Python!) 当然这个系列还有特征工程,深度学习等等介绍,感兴趣看看。
用户2936994
2022-07-21
4940
可编程的SQL是什么样的?
如果你使用传统编程语言,比如Python,那么恭喜你,你可能需要解决大部分你不需要解决的问题,用Python你相当于拿到了零部件,而不是一辆能跑的汽车。你花了大量时间去组装汽车,而不是去操控汽车去抵达自己的目的地。大部分非计算机专业的同学核心要解决的是数据操作问题,无论你是摆地摊,开餐馆,或者在办公室做个小职员,在政府机构做工作,你都需要基本的数据处理能力,这本质上是信息处理能力。 但是在操作数据前,你必须要学习诸如变量,函数,线程,分布式等等各种仅仅和语言自身相关的特性,这就变得很没有必要了。操作数据我们也可以使用 Excel(以及类似的软件),但是Excel有Excel的限制,譬如你各种点点点,还是有点低效的,有很多较为复杂的逻辑也不太好做,数据规模也有限。那什么交互最快,可扩展性最好?语言。你和计算机系统约定好的一个语言,有了语言交流,总是比点点点更高效的。这个语言是啥呢?就是SQL。
用户2936994
2022-07-21
6340
我是不是应该转行机器学习?
先说结论: 要不要转行,不妨先业余时间玩一把,看这个是不是真的适合自己,然后再去做决定。
用户2936994
2022-07-21
3220
Shopify 基于 Ray 的机器学习实践漫谈
今天看到一个比较有意思的架构图(图片来源于文章:https://shopify.engineering/merlin-shopify-machine-learning-platform)
用户2936994
2022-04-25
8830
写给【工程同学】的MLSQL机器学习教程
http://qwone.com/~jason/20Newsgroups/20news-19997.tar.gz
用户2936994
2022-04-25
3290
为什么说MLSQL是一个面向大数据和AI的语言
经过几个月的折腾,MLSQL 1.4.0版终于发布了。然后呢,我们也在这个版本正式对MLSQL做了新的定位,从原来的 "Unify BigData and Machine Learning" 转成了 "The Programming Language Designed For Big Data and AI"。 更多介绍可以参看 A Programming Language Designed For Big Data and AI
用户2936994
2022-04-02
4360
MLSQL 内置Delta数据湖以及Compaction功能介绍
之前写过一篇文章 Delta的真正用处和价值,你可知道,该项目开源的那天我就集到MLSQL了。不过当时只是尝鲜性质,主要原因是因为我一直觉得delta缺了Compaction功能。很多公司其实都有小文件的困扰,而Delta这个问题会更严重。不过近期Delta团队应该就会发布新版本了,届时有可能相关的功能都会补上。不过MLSQL现在也自己实现了一个Compaction的功能,并且对delta做了一定的集成和增强。
用户2936994
2019-06-13
6790
漫谈加持Blink的Flink和Spark
今天朋友圈有篇【阿里技术】发的文章,说Blink的性能如何强悍,功能现在也已经比较完善。譬如:
用户2936994
2019-02-27
1.1K0
谷歌BigQuery ML VS StreamingPro MLSQL
今天看到了一篇 AI前线的文章谷歌BigQuery ML正式上岗,只会用SQL也能玩转机器学习!。正好自己也在力推 StreamingPro的MLSQL。 今天就来对比下这两款产品。
用户2936994
2018-08-27
1.4K0
深度学习思考
大部分机器学习算法(包括深度学习),其实是在一个理想空间里(接下来我们会以三维空间为例子)寻找一个最大/最小值。三维空间是无限大的,在某个实际场景,假设我们有了解决某个问题的数据的全集(或者说是无限的数据),基于这些数据我们得到的优化函数的所有解构成了一座山。我们并不知道这座山的最低点是哪里,所以为了找到它,我们随机定位在一个点,试图沿着比较陡峭的方向下移动,并且希望能够因此而找到最低点。现实情况是我们并不能看到这座山,因为它笼罩在一阵迷雾里,我们只能根据已有的训练数据拨开一小片云雾,看到一小片地方,然后沿着比较陡峭的地方向下移动一点点,然后新进来的数据重复这个动作。大部分机器学习算法都需要转化成我描述的这个步骤来进行。
用户2936994
2018-08-27
3370
物尽其用-让推荐系统成为你学习的助手
很多事物本身是有好有坏的,我们只要挑出里面好的,然后充分为我所用即可。“物尽其用”大体就是这个意思。
用户2936994
2018-08-27
2580
推荐系统之眼
这半个月除了工作上的事,一直忙于学习机器学习基础理论,每天背着四五本书上下班,还蛮有读书时的感觉。之前写了一篇文章,叫基于用户画像的实时异步化视频推荐系统,应该说只是完成了一个心脏,整个数据集经过心脏的起博,开始流动起来,并且能够对外提供服务。然而此时的系统依然是瞎的,我们不知道它的效果如何,给我们带来了什么收益,会不会出现糟糕的推荐结果,以及我们有没有途径按照自己的想法去调教它。
用户2936994
2018-08-27
5100
如何做Spark 版本兼容
同理对应的Vectors object 也是。这就造成了一个比较大的困难,比如下面的代码就很难做到兼容了,切换Spark就无法通过编译:
用户2936994
2018-08-27
9320
让流动的数据结构化
结构化数据加上一个支持schema变更的存储,加上一个高效易用的支持SQL的数据处理和查询的引擎,简直无所不能和极度高效。
用户2936994
2018-08-27
4910
天天在做大数据,你的时间都花在哪了
那么延生出来,我们有没有想过大数据本身? 大数据到底是在做什么,为什么我做了这么多年的大数据,总是做不完呢?
用户2936994
2018-08-27
5230
Hey,Siri,帮我把服务器A的X目录凌晨五点拷贝到B服务器上
人无法从海量的语料中学习到规律,但是语料经过数学化后,经历深度网络,网络的的节点通过某种群体行为能够记录下这种规律,从而在新的数据到来后,能够用这种隐藏的规律进行处理。人类的神经元亦是如此。群体往往能形成某种意识或者规律。
用户2936994
2018-08-27
5840
这些年,我工作上走过的路
我走过了毕业季,创业征途,踏进开源之路,转型进入大数据,到最后有缘接触机器学习。每个章节,我都会提及对应那个阶段对技术的感悟,自己做的一些具体事情。
用户2936994
2018-08-27
9291
大数据三重门
人类实现了信息的存储,就像Time Machine一样,回到任意一个点,通过已有的数据重新构建过去的影像,也能够预测未来,模拟一个虚拟而准确的未来环境
用户2936994
2018-08-27
1920
(课程)基于Spark的机器学习经验
Hi,大家好!我是祝威廉,本来微博也想叫祝威廉的,可惜被人占了,于是改名叫·祝威廉二世。然后总感觉哪里不对。目前在乐视云数据部门里从事实时计算,数据平台、搜索和推荐等多个方向。曾从事基础框架,搜索研发四年,大数据平台架构、推荐三年多,个人时间现专注于集群自动化部署,服务管理,资源自动化调度等方向。
用户2936994
2018-08-27
5320
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档